我正在 SegmentFault 上录制一些 视频课程,欢迎购买收看,这是支持我创作更多技术内容的好机会哦。
基于业界最成熟的加密和版本控制工具 —— GPG 和 Git 的密码管理器:Elecpass
标签 #年度小结

2015 年度小结(技术方面)

从 2014 年末开始开发的一个互联网金融项目终于在今年三月份上线了,这是一个 Node.js 编写的 Web 服务,但上线仅仅是个开始,之后的半年时间我们仍在这个项目上进行着密集地开发。

就像 2014 年度的技术小结 中提到的,2014 一整年我都在进行有关自动测试的实践,经过几个项目的积累,这个项目从头至尾都有着覆盖完整的自动测试,我所有的调试工作也都是借助自动测试完成的,我甚至没有在自己的电脑上运行过这个项目的前端页面。因为路由层面受业务影响很大,经常修改一些功能的行为,所以后来大部分测试都是针对 Model 层面的单元测试。

这个项目使用了一种「以数据结构为核心」的设计,所谓数据结构就是一个 JavaScript 的 Object, 对应着数据库中数据表的各个字段,这些代表着业务实体的 Object 在项目中的各个函数之间传递。绝大部分函数的参数和返回值都是这种 Object, 它们在这些 Object 上获得或修改数据,并将这些 Object 与数据库同步,即使需要传递额外的数据,也是将数据作为属性附加到相关的 Object 上。可以说这是一种非常 JavaScript 的风格,因为这些 Object 非常近似于数据库中的一行记录,所以在单元测试中很容易构造,非常大地简化了单元测试中「构造特定环境」的这个步骤 —— 函数的输入和输出都是特定结构的 Object, 这对于 JavaScript 来讲太简单了。

随着功能的添加,业务逻辑变得越来越复杂,因为 Node.js 强制 IO 操作异步的这个特征,异步流程控制变成了一个令人头痛的问题 —— 直到我发现了 Promise。Promise 是 对异步任务的一种抽象,当我深入地理解了它的工作原理后,才认识到我在学习 Node.js 上走的最大的弯路就是很晚才开始了解和使用 Promise.

相比于编写 Callback 风格的异步代码,使用 Promise 意味着一种思路上的转变,虽然 Promise 的原理简单,但在具体的使用场景上还是需要自己做很多尝试的,例如具有分支的异步逻辑、循环地处理数据、逐级传递异常等。

在这个实践的过程中,我逐步地将自己的项目中的异步代码改成基于 Promise. 在和 Express 的配合中,我发现因为 Express 没有对 Promise 的支持,所以 Express 的路由定义实际上变成了 Promise 的「边界」,所有的 Promise 都要在这里进行一次转换,改成 Express 的错误处理机制。于是我想如果有一个支持 Promise 的路由框架将会是一件很有趣的事情,于是我花了几天的时间设计并实现了 Cichorium, 这是一个代码只有一百来行,基于 Promise 来提供异步中间件和错误处理的路由框架。

在使用 Promise 的过程中,也让我对「异常」有了更加深入的认识,异常是现代语言所提供的非常强大的流程控制机制,让本来唯一一条通常的、正确的执行路径变得可以从任何一处中断,并进入一个所谓的异常处理流程。异常可能包括「预期到的情况」和「非预期的情况」,如果在自己的代码中抛出了异常,那么通常是属于可以预期到的情况,例如参数错误、前提条件不满足等,抛出异常的目的是为了中断正常流程,并通知调用者;而非预期的情况则可能是所依赖的库抛出的异常,或因运行时错误 JavaScript 引擎抛出的异常。

异常会被调用栈上离异常被抛出处最近的处理程序捕捉到,一旦异常处理程序「解决」了这个异常,其他的异常处理程序就不会再得到通知。所以处理程序应当只去处理已知的、必须在此处理的异常,然后将其他的异常继续向其他处理程序抛出,最后到达一个「边界」,例如作为 HTTP 相应发给客户端,或打印一条日志。

这个项目在上线初期时间赶得比较紧,加上经验不足,在上线后的前几个月时间一直都在遭遇性能问题。中间出现过几次因为并发请求过多,多个请求修改同一条数据进而出现的数据不一致的情况。本来是有一个通过简单的 Redis 锁限制一个用户同时只能有一个写入数据的请求的机制的,但毕竟不是根本的解决方案。于是我开始尝试使用 MySQL 的事务,将一组相关的 SQL 查询放入一个事务中执行,对于有前提条件的更新操作(例如扣余额后余额不能为负数),将前提条件作为一个更新条件,如果执行后发现并没有行被更新,就说明前提条件不满足,然后回滚这个事务,向客户端报告失败。借助于数据库提供的原子性和一致性,即使并发很高,或者程序崩溃,都不会出现数据不一致。

使用事务只是解决了在高并发情况下的数据一致性的问题,但并没有解决性能问题。这个项目中的数据主要是财务记录,用户的每一次操作都会生成财务记录,这些数据被用来追踪每一笔资金的流向,会被聚合起来用于给用户展示统计信息,这个过程需要对数据进行筛选、分组、排序等复杂的计算。

显然这些计算如果在数据库中计算会有更好的性能,因为不需要在程序和数据库之间传输大量的数据,而且 MySQL 应该会对这类计算有更好的优化。于是我开始补习 SQL, 将几乎全部的筛选、分组、排序逻辑都在 MySQL 中完成。同时我开始学习如何分析 MySQL 的性能瓶颈,最简单的就是慢查询日志,曾经一度有一些查询需要 300 秒的执行时间。至于解决方案,除了优化查询条件之外最主要的就是加索引了,我也花了一些时间来了解索引背后的原理和最佳实践。

这些统计数据和时间是强相关的,过去的数据通常来讲就不会再修改了,所以如果能够将这些数据的统计结果缓存起来,将会显著地提高性能。其实本来也有一个简单的缓存机制,用户访问统计信息后会被缓存,但一旦用户执行任何财务操作都会使整个缓存刷新。所以很容易想到的是进行更细粒度的缓存,即在时间的维度上应用所谓的「套娃娃缓存」,在 Redis 中以天为单位缓存发生的财务变动、当日结束时各项统计指标的值。如果某一天的财务数据发生变动,只需以前一天的数据为基础去计算之后的数据,大多数情况下历史数据是不会改变的,只会刷新当天的缓存。

这项修改花费了不少时间,因为需要重写所有生成统计数据的代码,在前一天的计算结果的基础上计算出当天的统计数据,并连同一些中间结果一起缓存起来,供下一天的计算使用。相当于将原来一个简单明了的计算过程被拆分成了若干个小步骤,步骤之间还需要通过 Redis 来交换数据,看似复杂,但减少了很多不必要的重复计算,上线之后将性能提高了差不多一个数量级。

这个项目大概是我这一年完成的最满意的项目了,我参与到了绝大部分的设计工作中,也完成了差不多一半的编程工作,从头至尾都有着完整的自动测试覆盖,借助 Promise 实现健壮的异步流程控制和异常处理,在高并发的情况下实践了事务、缓存、索引相关的知识。


我从年初 开始使用 Atom 完成我的全部工作,选择 Atom 并不是因为它已经有多么好用了,而是因为 Atom 有着优良的设计和活跃的社区。最近两年我工作都是使用 Node.js 来完成的,而 Atom 也基于 Node.js 和 Web 技术构建起来的,甚至 Atom 也是用 CoffeeScript 实现的,这种相同的技术栈,令我非常有「安全感」。我也在了解和学习 Atom 的实现,它有着完全插件化的架构和设计良好的 API, 对我后来重构 RootPanel 都非常有帮助。

在我了解 Atom 的过程中,我发现中文网络上对 Atom 的讨论非常分散,于是我创建了 Atom 中文社区,到年末已经有 800个注册用户和 1000 个帖子了。说实话,中文技术社区的氛围并不好,因为可能技术能力较强或英语水平较高的人会直接选择去参与官方的社区,目前也基本上是我一个人在回答问题、翻译官方博客和文档、汇总一些资料,不过既然我还在用 Atom, 就会一直将这个社区维护下去。


RootPanel 在 2015 年上半年依然在缓慢地进行着,因为通过阅读 Atom 的代码学习到了大量有关插件化设计的方法,所以我这半年并没有向 RootPanel 中添加新功能,而是一直在反复地重构 RootPanel 的架构。

首先是为其中的重要概念建立抽象,例如服务组件(MySQL 数据库、Nginx 站点之类)、计费方案(计费周期、价格、限制)、支付渠道、控制台上的控件等。之前虽然也有针对这些概念进行抽象,但基本上是写到哪里、需要什么接口,就添加一个相应的接口,缺乏一个全局性的规划。进而导致抽象出的概念不够简洁、不够彻底(有一些插件的逻辑仍散落在核心代码中)。

JavaScript 本身是一个很灵活的语言,对象本身是「无模式」的,属性和方法都可以随意地修改,也提供了「原型链」来支持对象之间的继承关系。为概念建立抽象的一种有效途径就是「面向对象」风格的设计,Atom 就采用了这样的设计,我觉得面向对象对于 RootPanel 可能同样很合适。

面向对象首先统一了「数据」和「行为」,让数据可以带有行为,而在执行这些行为的时候又不必显式地传递数据;对象本身也是一个抽象层级,只要两个对象有相同的属性和方法(而不论背后的行为),就可以被当作同一种对象操作,即所谓的「鸭子类型」,这对于插件化的系统而言十分便利。

于是我用了一部分面向对象的风格来重构 RootPanel, 将其中很多概念抽象为了类,为每个模块起一个恰当的名字,减少不同模块之间的依赖;为模块划分「级别」,建立层级一致的抽象 —— 即在任何一个层级来看,抽象都是完整的,让同层级的类来打交道,而不是将层次不一的类混在一起。


在 2014 年我就一直对 Mongoose 有很多不满,一直想自己造一个轮子,在 RootPanel 的开发过程中也遇到了 Mongoose 的一些坑和一些难以实现的需求,于是今年终于行动起来了,然后就有了 Mabolo —— 一个轻量级的 MongoDB ORM

我对 Mabolo 的定位是一个简单的、「没有魔法」的 ORM, 每个 Model 都是一个普通的 JavaScript 构造函数,而每个文档则都是由这个构造函数生成的实例 —— 除了几个用来保存内部状态的不可枚举属性之外和普通的对象没有任何区别。Mabolo 不去追踪数据被改变的情况,而是鼓励使用 MongoDB 的原子操作符进行数据更新,Mabolo 仅在更新后帮你将最新的数据同步到这个对象上。

嵌套对象是 MongoDB 的特色之一,在实际项目中也经常会用到这样的设计,于是我也为 Mabolo 添加了嵌入式对象的支持,允许将 Model 中某个字段的类型设置为另一个 Model. 在储存到数据库前会运行所有子 Model 的验证方法,在从数据库取出结果后会为每个子 Model 字段构造相应的对象,以便在这些子 Model 上运行更新和删除等方法。


五月初的时候和 Yeechan 等人参加了 SegmentFault D-Day 上海站 的活动,主要听了有关 Docker 和 React 的主题分享。

因为我开发 RootPanel 的经验,对 Docker 这种性能损耗极低的虚拟化技术自然十分感兴趣,在参加这次活动之前就去简单地了解过 Docker, 当时我对 Docker 的不解主要在于 Image 只能单继承,这样就不太容易像「搭积木」一样去组合自己想要的环境,这可能是因为文档上面那个搭积木的示意图对我的误导比较大。

经过这次的主题分享,我才比较全面地了解到基于 Docker 去部署应用的思路,即既然创建容器的成本是极低的,那么可以为系统中的每个部分去创建单独的 Image, 运行单独的容器,然后通过 Docker Compose 这类工具去组合容器。Dockerfile 描述了应用的运行环境和依赖项,而 docker-compose.yml 描述了如何将一个系统中所需要的各个部分组合起来,完成了关于一个系统的完整描述。在实际运行时,因为容器之间的联系非常少,通常只暴露几个网络端口,所以给整个系统带来了非常好的横向拓展的能力,系统的每个部分都可能会运行多个容器,甚至这些容器可能会分布在不同的物理服务器上,同时提供一致的服务。

因为 Docker 是内核级别的虚拟化,对系统调用的抽象代价很低,而因为使用了 AUFS 对文件系统进行抽象、需要建立虚拟网卡进行端口转发,所以磁盘和网络 IO 的抽象开销相对较大。所以 Docker 更适合计算密集型、依赖复杂(这样才能发挥 Docker Image 的优势)的程序,就是通常 Web 项目中负责处理请求的「应用」这部分,而将数据库等 IO 密集、部署简单、不频繁升级的程序直接部署在物理机上。

现在 Web 后端程序面临的主要挑战就是高并发,保证单个程序的稳定性,倒不如采用分布式的架构,将一个处理能力强的实例拆分为若干个处理能力较弱的实例,转而保证一旦有实例失效,可以立刻重新创建一个实例接替它继续工作。但如果在实例中储存了一些全局的状态(例如锁)就无法通过启动多个实例的方式来横向拓展。所以比较理想的实践就是将应用实现为「无状态」的,即容器中的应用只根据来自网络的请求进行计算,对数据库、缓存和文件系统的调用同样通过网络去请求容器外部的服务。这样才可以进一步利用 Docker 的优势 —— 容器可以根据规模需要随时去在不同的物理机上创建和销毁而不需要同步数据。

随着对 Docker 了解的深入,我开始意识到 Docker 对 RootPanel 这类 PaaS 平台是一个「杀手级」的应用,像 RootPanel 那样笨拙地使用一系列 Linux 的机制和工具去隔离用户和直接使用 Docker 相比毫无优势,让我很有将 RootPanel 改为基于 Docker 的架构的冲动。但想来想去还是放弃了这个想法,因为一方面这个改动可能会非常大,另一方面其实已经有了很多非常优秀的基于 Docker 的开源 PaaS 程序了。

后来我加入 LeanCloud 负责云引擎的开发工作,云引擎实际上就是一个基于 Docker 的 PaaS 平台,各方面都和 RootPanel 非常相似。既然日常的工作已经是这样一个项目了,所以进一步促使我中止了 RootPanel 的开发。但说实话我对 PaaS 还依然有兴趣,也许有一天我会根据我在 RootPanel 和 LeanCloud 的经验,重新设计一个最简架构的 PaaS 来纪念 RootPanel.

随着在工作中深入地了解 Docker, 在年末的时候我将我的服务器上应用全部换成了基于 Docker 来运行,这样的好处就是每个应用都可以有自己的环境,而且每个服务的环境和服务之间的依赖关系都被描述在了 Dockerfile 和 compose.yml 中,彻底解决了以前服务器上各种应用「乱七八糟」的现象,以后若要迁移服务器或重新部署将会变得非常容易。


过去一年我花了不少时间断断续续地将「JavaScript 权威指南」和「计算机程序的构造和解释」看完了,对 JavaScript 的了解也进了一步,其实 JavaScript 对函数式风格的代码还是有很不错的支持的。按我在 JavaScript 中对函数式编程的实践,最有价值的的两点就是「无状态」和「无副作用」。

随着前端应用越来越复杂,所展现的数据之间的逻辑关系也越来越复杂,也出现了很多框架来解决前端 UI 和数据(即状态)之间的同步问题,其中之一的 React 从一个非常有趣的角度来入手 —— UI 可以是应用状态的一个函数,给定一组状态就有一个确定的 UI. 如果每次状态发生变化都重新渲染整个 UI, 便可以极大地降低管理 UI 和 状态的复杂度。

React 还在浏览器提供的 DOM 上建立了一层抽象,在每次重新渲染 UI 时,React 操作的都是 Virtual DOM, 而后再去与真正的 DOM 进行对比,更新必要的部分。我觉得这种抽象还是非常有价值的,Virtual DOM 限制了很多操作,但它提供了优化性能的空间,也为将 React 程序迁移到非 Web 平台提供了可能性,例如后来我就尝试过在服务器端使用 React 来渲染 HTML.

后来我在 RootPanel 和其他一些项目上实验性地使用了 React, 我也使用了官方推荐的 JSX 来编写代码,React 这种将 JavaScript 作为应用主体的做法很不同于一些将 HTML 作为应用主体的框架。有一些人批评 JSX 将这些年好不容易才分开的 HTML 和业务逻辑(JavaScript 代码)又重新混在了一起。而我则认为「模板语言」的出现一方面是因为部分语言表现能力较弱,需要模板语言将 HTML 和琐碎的语法细节分离;另一方面则是试图在数据和冗长的 HTML 表现之间建立一层抽象。JavaScript 本来已有很不错的表现能力,JSX 又添加了一些与 HTML 相融合的语法;React 通过引入「组件」的概念来拓展 HTML 的标签,让用户可以自己创建包含内部逻辑和状态的标签,进而让 HTML 表现不再冗长,所以分离就变得不必要了。

总体上来讲我对 React 很有好感,因为我觉得 React 很好地实现了一些函数式编程的风格,来简化 UI 编程中对状态的管理,React 鼓励将组件设计为无状态的,同时将渲染过程设计为无副作用的,这样无论何时,只要状态发生改变就重新渲染整个 UI 即可。

在我后来编写 LeanEngine Snipper 的时候,需要在前端进行大量数据处理以便根据用户的筛选来展示图表。一开始没有考虑太多,部分函数是会修改其参数(往往是一个包含大量对象的数组)的,在后来支持用户修改筛选条件时就遇到了问题 —— 原始数据在绘图的各个环节中都有可能被修改,不得不在开始绘图之前对原始数据进行一次 clone, 在后来的性能分析中发现 98% 的时间都花费在了 clone 上面。

于是我不得不重构代码,让大部分函数不修改参数,而是在参数的基础上返回一个新的对象,将需要 clone 的数据减少到了最小,经过这次的优化,筛选的性能提高了 40 倍以上。从直观感受上来看,每个函数返回新的对象会消耗更多的资源,但在 JavaScript 中,返回新对象实际上只是在拷贝它的属性的引用,并不会花费多少时间,反倒是在 clone 对象时需要遍历所有的属性,才需要花费大量的 CPU 时间。


因为最近两年都在使用 Node.js, 我希望也使用 Node.js 来驱动我的博客,我最后选择了插件化架构的 Hexo —— 一个静态博客生成器,我自己编写了 主题,并将博客的数据也托管在 GitHub 上。后来我将 RP 主机博客粉丝团主页 也都迁移到了 Hexo, 后来新建的 皮蛋豆腐的博客 也使用了 Hexo.


今年我作为 HackPlan 的成员,参与了几次招聘,后来我也作为求职者参加了几次面试。

国外的一些职业,包括医生、律师,也包括工程师,都普遍地去打造自己的个人品牌,目的是为了找到更好的工作。确实在过去两年中这种个人品牌对我的工作是很有帮助的,在我面试的过程中,我去的几乎所有公司的面试官都表示曾经听说过我。虽说技术岗位以能力为先,但至少如果混个脸熟,双方会有一个基本的信任。

我当时说在找到工作之后会和大家分享一下参加面试的经验,但后来想了一下,写出来的话应该都是关于我没有选择的那些公司的负面评价,大家都是同行,这样不是很好,所以后来只写了 加入 LeanCloud 的过程。


说实话,现在使用 Node.js 的公司依然是少数,因此在求职时我也将 PHP 纳入了考虑。在我离开 PHP 之后,社区发生了许多变化,出现了像 Laravel 这样设计优良的一站式框架,composer 这个包管理器也被越来越多的人接受。为了重新捡起 PHP 这个技能,我花了一些时间用 Laravel 做了一个最简单的论坛系统的轮子 —— labbs-laravel.

在之前,无论是 PHP 还是 Node.js 中,我都没有使用过像 Laravel 这种重量级的框架。Laravel 不同于国内一些粗制滥造的重量级框架,虽然它提供了很多功能,但却并不显得臃肿。首先 Laravel 并没有选择造轮子而是构建在 Packagist 中已有的包之上,它有着一个非常精简的核心架构,除了经典的 MVC 支持外,其他的各类功能(认证、缓存、队列)都被抽象成了「服务」,这些服务可以独立为单独的包发布在 Packagist 上,且同类的服务是可以互相替换的。

Laravel 对我来讲最大的亮点是 ORM 部分(Eloquent),我之前用过的 ORM 比较少,在实现 Mabolo 的过程中一直在纠结如何实现对象之间的引用关系。Eloquent ORM 将关系本身也抽象为了一个类,当你访问一个对象的关系字段时,得到的是一个「关系对象」,你可以在这个对象上进行筛选和查询等操作。其实这样的设计还是非常直观的,但因为我之前闭门造车,一直没能「独立发现」,在新的一年中我会用这样的思路去给 Mabolo 添加关系支持。


最后如果做个总结的话,我这一年依然主要在编写 Node.js 代码,也写过少量的前端代码,对 JavaScript 的了解越来越深入。这一年的我在关注基于 Promise 的异步流程控制和错误处理、深入了解关系型数据库和 SQL、探索函数式风格的 JavaScript、探索和学习插件化架构的设计、借助 Docker 来管理应用的部署和拓展。

2015 年度小结

转眼间又一年过去了,2015 年初是我在南方过的第一个冬天,没有暖气实在是不好过,从十一月份开始室内的温度就好像定格在了沈阳暖气供应前的那几天,一直持续到来年三月。

这个冬天我继续热衷于 数据统计,使用番茄土豆、Toggl、RescueTime 等工具来统计我在各种活动上的时间开销,这件事坚持了差不多两个月,后来我发现其实这样做意义并不大,而且很累,于是放弃了。

今年年初我决定将我的博客 从 WordPress 迁移到 Hexo, 在我花了一个月 自己编写了主题 并导入数据之后成功上线。然后我又花了七个月的时间对之前所有的博客文章的内容和排版进行了一次修订,并删除了极少一部分信息量较低的日志。

在五月份,因为更新了 Yosemite 之后感觉性能变差了,于是将我的 MacBook Air 卖给了粉丝团里的一位朋友,卖出的钱刚好自己组装一台 Windows 台式机。说起来我当时已有很久不用 Windows 了,不过我并没有觉得 Windows 难用,我还是很快地找到了合适的工具,适应了 Windows 下的日常使用和开发工作。

在今年六月,我们在昆山的房子租期到了,于是搬到了上海市郊的一栋独栋别墅,紧邻虹桥机场,飞机起飞时几乎占满了整个窗子。我们也讨论过要继续留在昆山还是搬到上海,搬到上海的好处是可以享受一些仅限上海的互联网服务、更方便地参加一些在上海举行的活动。然而搬到上海之后我发现情况和设想有一些出入,因为距离市区实在太远了,附近也没有商业区也没有地铁,出行很不方便,几乎三餐都是靠外卖解决。

刚好是搬家的时候,cry 姐姐从武汉过来找我玩,在昆山这边住了几天。之后 cry 姐姐在杭州找到了工作,所以后来又和 cry 姐姐见了很多次面,一起去了上海的博物馆、植物园以及宜家。如果有人是靠运气生活在这个社会中的话,大概就是 cry 姐姐了。cry 姐姐有很多坏习惯,但更重要的是她不相信自己可以做出改变,可以成为受大家喜欢的人,大概我并不能改变她,也许 cry 姐姐是一个不需要朋友的人吧。

七月初,晚上路过一家饭店门口时,看到两只大概一个月的小猫咪,店家说他们并不想养,如果想要可以拿走。我一直很喜欢萌萌的猫咪,也很严肃地计划养一只猫很久了,不过一下子养两只还是让我有点没心理准备,但在考虑了十分钟之后我还是决定带它们走。

在路上我就给它们起好了名字,身上黑色多一些的叫「皮蛋」,而身上白色多一些的叫「豆腐」。一开始我还纠结它们是否能区分出自己是皮蛋还是豆腐,因为它们总是一起出现,不过后来我发现我想多了。在上海和大家一起住的时候皮蛋豆腐受了大家很多照顾,其实直到后来搬出来自己住的时候我才真正地尽到主人的责任,每天亲自照顾它们,陪它们玩,它们也对我非常信任。

七月末的时候我出了一趟远门,路线是从上海回沈阳,然后从沈阳到北京玩几天,再回上海。因为卖掉了 MacBook, 缺少一个随身携带的笔记本电脑,于是受 cry 姐姐的蛊惑买了一台 Surface 3, 这差不多是我 2015 年买的最后悔的一样东西,因为刚买过就降了价,而且感觉使用场景并不多,大部分时间都是放在那里吃灰,于是在十一月的时候折价卖给了 IntPtr.

去北京期间在昱东家住了三天,他先后工作于中国两大互联网公司,一个劲地劝我不要在所谓创业公司浪费时间,要选择可以提供更好的条件、流程和制度更加完善的「大公司」,也和我分享了一些他的「职业规划」。虽然我觉得他和我并不是一路人,但是这些谈话对我还是很有帮助的,也让我严肃地考虑了一下今后的工作。

从北京回来之后,经过一个月的慎重考虑,我 决定离开 HackPlan, 其实在决定离开的时候其实我还不知道我会去哪一家公司,不过最后我 选择了 LeanCloud. 加入 LeanCloud 之后我就回到了昆山,因为有了固定的工作时间,下半年我的作息时间规律了不少。但因为第一次一个人租房子住,生活经验不足,几乎每天我都要花很多时间在收拾和清洁房间上 —— 当然这里也少不了皮蛋豆腐的「功劳」。

在十月末,我决定 彻底关闭 RP 主机和 GreenShadow, RP 主机对于我有着非常特殊的意义,它是我坚持最久、用户最多的项目,我也从这个项目赚到了我的第一桶金,甚至能够加入 LeanCloud 也有一部分原因是我维护 RP 主机所积累的经验。但随着我离开学校开始工作,离「每个月只有十元钱却希望建一个网站」的这群人越来越远了;而且现在我在 LeanCloud 的工作是维护一个和 RP 主机类似的 PaaS 服务,所以最后决定关闭 RP 主机。

2014 年度小结(技术方面)

2014 年的第一个项目是一个有关比特币交易的系统,规模并不大。

这是我除了 Hello World 之外的第一个 Node.js 项目,也是我第一次写 CoffeeScript. 简单地看了一遍「CoffeeScript 小书」,又随便搜了搜对 CoffeeScript 的评价,大家说得最多的是「CoffeeScript 嘛,哪有什么语法,想怎么写就怎么写就行了」,说起来倒还真是如此,差不多只花了两个小时就学会了 CoffeeScript, 而且之后几乎没在这上面遇到什么坑。

说起 CoffeeScript, 似乎在 2012 年中旬,whtsky 牛就开始学习了,并且在博客上发了两篇文章,虽然 CoffeeScript 很简单,但这也可见 whtsky 总是站在潮流浪尖。

虽然之前一直对比特币很是关注,但对比特币的交易规则其实还是一知半解,其实比特币交易平台的工作模型和股票是相似的——说起来在此之前我也不知道股票是如何工作的。因为对这个项目业务逻辑的知识了解不够充分,所以这个项目我差不多是只写了个开头,就由别人完全接手了。


第二个项目是也是有关比特币的,一个 Web 系统,也是 Node.js.

因为这时搬到了苏州,有很多的时间和小明交流,所以总算是对股票的工作方式,以及相似的比特币交易平台的工作方式,有了一个比较深入的了解。

当一个 Web 系统的规模稍大一些,比如有几十个 API, 以及几个比较大块的业务逻辑;再对这个系统进行重构就非常困难了,但碰巧我又总是在重构——这有主观原因也有客观原因,客观原因就是毕竟我初学 Node.js, 还在探索所谓的「最佳实践」,免不了要走一些弯路。于是在这个系统主体已经完工的时候,我开始着手引入自动测试。

说起自动测试,在此之前,我无数次地听到这个词。我知道这是一种先进的开发技术,但不知道究竟如何应用,也不知道用好了之后会有怎样的效果。在 LightPHP 上我做过一些探索,但感觉大部分模块因为有复杂的依赖关系,不容易编写单元测试;而为简单的模块编写单元测试又没有带来实际的正面影响。理想的情况下,应当将程序划分为模块,然后对每个模块或者说单元进行测试。但实际上大多数情况下,我还是没能彻底地剥离掉模块之间的依赖关系,所以更多的时候我在使用「自动测试」这个词,而不是「单元测试」。

所以,还是老问题,剥离模块之间的依赖关系令我非常头痛。虽然在这个项目上,后来还是做到了为绝大部分功能编写测试,但是用了很多不够优雅、不够健壮的实现方案,导致测试非常容易出问题,而且出了问题之后往往要进行大幅的修改才能解决,且测试代码之间也有错综复杂的依赖关系。


然后依然是一个有关比特币的交易系统,依然 Node.js.

这是一个自动交易系统,整个系统每时每刻都在进行大量的计算,基本上占用了服务器的几乎所有资源。这个项目的代码量并不大,但是逻辑密集,计算量大,对性能有一定要求 —— 事实上这差不多是我做过的唯一对性能敏感的项目,因为大多数项目的用户量实在太少了,根本谈不上优化性能。

为了能让算法逻辑更清晰,也为了找出改善性能的关键点,这个项目前前后后重构了很多次。在最后一次重构后,似乎效果还不如之前,不过因为比特币的价格一路在跌,这个项目被暂时搁置了,最后的一个版本开始在无人看管的状态下继续吃 CPU. 但是这不影响比特币继续一路下跌,终于在最近,这个项目被彻底关掉了——说起来比特币差不多是 2014 年度最差的投资品了。

这个项目使用了 MongoDB 作为数据库,程序差不多是在虐待数据库 —— 我没有花太多时间来对数据库进行优化,连索引也是随便想当然建的,然后程序每秒钟都在写入和读取数据,以及一些没有被很好地优化的聚合查询。不过 MongoDB 在这半年间完全没有出过问题,让我对 MongoDB 好感倍增;说起来 RP 主机上的 MySQL 曾经出过无端丢数据的情况,再加上毕竟 MySQL 的作者已经不建议我们使用 MySQL 了,顿时觉得 MySQL 的前途一片灰暗。


之后开始我们(指 番茄土豆团队, 下同)开始着手重写之前 PHP 版本的 番茄土豆. 因为之前在设计上考虑不充分,在用户量增加了之后,出现了一些性能问题,为了系统性地解决性能和其他的一些问题,索性不如直接用 Node.js 和 MongoDB 进行重写,而不是在原来的 PHP 版本上再修修补补。做出这个决定也是因为这时候我们大概用了半年 Node.js, 相比于 PHP, 我们觉得基本上只有优势,而没有发现有什么不如 PHP 的地方,于是希望将原有的 PHP 项目都改为 Node.js.

这次重写主要是其他人完成的,我只是稍微参与了一下,写了其中几个小的功能点。这是我第一次使用 Mongoose, 之前我认为既然 MongoDB 的特点是无模式,那么何必非要用一个 ORM 重新定义模式呢;后来我又稍稍改变了一点想法,确实 MongoDB 的 API 提供的是一种较为底层的数据库操作,还是需要一些辅助的功能来更好地完成业务逻辑,例如字段的检查器、在文档上定义实例方法等。

Mongoose 差不多是 Node.js 社区最主流的 MongoDB ORM, 选择它是一个没有悬念的事情。但用了一阵 Mongoose 之后我发现,虽然 Mongoose 设计了一个美丽的图景,但在细节上坑实在太多了。比如它虽然提供了在文档间定义引用关系和嵌入关系的方法,但这个功能非常弱;另一方面因为它用了一些比较 hack 的方式来实现对字段的验证,这导致又没有办法自由地修改从数据库中取出的文档,例如自己来实现引用关系,这给向视图传递数据造成了一些困难。

总之,在我使用 Mongoose 的过程中,总是有一种自己重新造一个轮子的冲动,但我又没有把握设计得更好,需要很努力地克制这种冲动 —— 好吧,其实我连给这个轮子的名字都想好了。

在 Node.js 版基本完成后,如何将新版本部署上线成了一个很大的问题,这个问题困扰了我们几个月的时间。番茄土豆在 2014 年初也上线了一个重写的版本,但那次的情况要简单得多,一个晚上就基本搞定了。而这次因为除了 Web 版之外还有几个平台的客户端,需要保证这些客户端所使用的 API 依然可用,这就要求新版本的上线过程必须是持续的、平滑的,新旧版本需要共存一段时间,目前我们还在逐步完成有关新版本上线的工作。


我们给番茄土豆设计了一个「周报」的功能,会在每个周末向用户的邮箱发送一周的工作报告,这个工作由我负责,但这差不多是我 2014 年度完成得最不好的一个项目,前前后后花费了很多时间,但还是错误百出。

说起来也简单,无非是每周运行一次:从数据库查到数据、生成统计数据、渲染邮件、发送邮件,但每个步骤都出了很多问题。首先要保证这个任务每周运行一次就花了一些功夫,因为番茄土豆的用户来自不同的时区,所以需要在当地时间每周日早上来发送这封邮件,这就将「每周一次」变成了「每周 24 次,每次完成一部分」。而邮件一旦发出又不能撤回,试错有很大的代价 —— 在这个项目上我出现了太多次严重的失误。

因为这是我们第一个与邮件相关的工作,因此之后大部分与邮件相关的工作也归我了。我围绕着邮件写了一些一般化的库,比如 pomo-mailerpomo-sender. 前者用于渲染涉及多语言的邮件,后者是一个考虑了时区和定时任务的邮件队列。

在实现邮件队列上,我遇到了一些有关 Node.js 异步流程控制的坑。在 PHP 和 Node.js 中,都不需要我们人工地创建和管理线程,因此之前从 C++ 上学习到的有关多线程编程的知识也快忘光了 — —或者说那些知识其实根本没实践过。直到年末看了 JavaScript 异步编程 这本书之后才基本掌握了如何在 Node.js 中优雅地控制异步流程。


RootPanel 是贯穿我 2014 整年的一个项目,也贯穿我学习 Node.js 的整个过程。

在之前写 PHP 的时候,当需要写前端 JavaScript 时总是非常苦恼,因为 JavaScript 语言的设计并不全然合理,浏览器间又有不兼容的拓展,再加上市面上全是些不靠谱的 21 天学通 JavaScript 教程。所以在一开始使用 Node.js 的时候我也对 JavaScript 比较抗拒,加上 CoffeeScript 屏蔽了 JavaScript 语言的一些细节,所以在最开始的一段时间,我对 JavaScript 的了解其实很少。例如原型系统、真假值表什么的都是后来才系统地了解。

RootPanel 3 被我定义为「一个插件化的 PaaS 开发框架」,实现彻底地插件化是最重要的一点。2013 年末的时候我已经开始尝试用 PHP 实现 RP3 了,但非常困难,主要是因为 PHP 毕竟还是传统的面向对象架构,正统的方式是通过类的继承、定义接口来实现插件化,这就导致大量的代码是在维护这种「模式」而不是专注于业务逻辑。JavaScript 就好像无模式的 MongoDB 一样,PHP 中的类、对象、数组、函数,在 JavaScript 中都是 object, 可以自由地添加和读取属性,以实现在运行时拓展功能。当然 JavaScript 的灵活性也导致了我作为一个 Node.js 新手,一开始花了很多时间去探索什么才是好的设计模式,浪费了很多时间,尤其是浪费了很多时间在重构 RootPanel 上。

在 2014 年 8 月,因为 us1 被反复 DDoS 直到下线。我不得不加快了 RP3 的开发,在之后的三个月里,快速地发布了几个版本,还节外生枝地发布了一个 GreenShadow. 在之后,尤其最近两个月,RP3 的进度明显慢了下来,主要原因是我对插件系统的设计依然不理想,还在继续探索更好的实现方式;目前 RootPanel 的版本号是 0.8, 希望在新的一年里我能将插件化的实现方式确定下来,发布 1.0 版。


在 2014 下半年,我断断续续地看完了 SQL 反模式, 这本书中列举了一些好的和不好的数据库设计模式。说起来我的 SQL 基础非常不扎实,基本上也就会个增删查改,从未系统性地学习过 SQL. 我突然开始反思,是否是因为我只用到了 MySQL 众多功能中很小的一部分,所以才觉得关系性较弱、无模式的 MongoDB 更好用呢。于是我开始尝试系统地学习 SQL, 但似乎 SQL 本来就不是一个系统的语言,有大量「取决于实现」的细节。所以我其实也只是先补习了一下之前了解很少的子查询、GROUP BY, 以及 JOIN.

这时,我们希望将番茄土豆中的订单和支付系统独立出来,用 Node.js 重写,我决定在这个项目中使用 MySQL.

这个订单系统是我第一次在一开始就引入单元测试的项目。因为我们一直都是前后端独立开发,所以在此之前,我都是通过 Postman 在测试我的程序。因此经常发生这样的情况:在开发完成一个功能后,测试没有问题,但之后因为改动其他部分而产生了问题,这种情况往往只有到前端开发用到这个接口的时候才会发现,因为我们团队都是远程工作,经常发生这样的事情会对工作效率有一些负面的影响。而在重构之后这个问题更加严重,往往要重新测试所有接口来确认重构没有对其造成影响。

而如果从一开始就引入单元测试,开发就变得容易得多,开发的大部分时间就是在看单元测试的结果而已,一旦单元测试显示通过,那么你就知道程序至少在按照你单元测试中写清的规则在运行。有人认为编写单元测试需要花费额外的时间,进而觉得很不值得,其实不然,开发一个程序终究是需要测试的,单元测试会将原本需要人工测试的步骤自动化,以便可以随时完整地重新运行所有测试。只要探索出了正确的方法,编写单元测试并不会比人工测试花费更多的时间,而且单元测试会有一项额外的好处:测试的步骤被存档了下来,而且会进入源代码的版本控制中。

当然,为了能够编写单元测试,是需要在设计项目结构上花一些功夫的。前辈们在这一点上的经验总结起来就是三个字母 —— MVC. 之前我一直错误地在 Controller 中包含了太多的逻辑,比如在 Controller 中实现大部分的错误处理。其实这通常也不会有太大问题,但一旦引入了单元测试,这种架构就暴露出了问题。在 Web API 中往往一个接口包含了一组逻辑,如果在 Controller 中包含这些逻辑就会出现一些重复,这些重复的逻辑没办法被抽象成一个函数。更严重的是因为在单元测试中需要构造一些特定的环境,如果通过调用 Web API 的方式来实现会非常繁琐,因为 Web API 往往是被保护在用户认证、权限认证之后的。所以更正确的方式是尽可能在 Model 中实现大部分的逻辑,以便被划分成更细粒度的单元,被单元测试直接使用。

Node.js 上主流的 MySQL ORM 应该是 Sequelize, 不过我在这个项目中本着「步子不要迈太大」的原则,并没有使用 ORM, 也没有使用 MySQL 的外键和事务,这些功能估计要在新的一年里去探索了。


我们团队的前端项目一直在使用 AngularJS, 如果我还在写 PHP 的话,那这应该和我关系不大。不过既然已经掌握了 JavaScript, 就不如尝试一下。于是买了一本 JavaScript Web Applications 学习如何在前端实现 MVC. 这本书简单地介绍了 Backbone 这个框架,我发现相比于 AngularJS 我更喜欢 Backbone 这种侵入式弱,定制型强的轻量级框架。于是我读了一遍 Backbone 仅有 2000 余行的实现,并决定在新的一年里用 Backbone 来重构 RP3 的前端。


2014 年的最后一个项目也是一个 Node.js 的 Web 系统。

这个项目也是从一开始就引入了单元测试。我发现我之前为 Web 系统编写的单元测试存在一个问题,即究竟应该以什么为「单元」进行测试。之前通常是以每个 API 接口为一个单元,测试这个 API 接口在各种情况下的工作情况。但当程序的逻辑复杂起来以后,为了测试一个 API 接口在某种环境下的工作情况,需要花费大量的代码来准备这个环境。于是一个更好的方式就是以「行为」为单位,一种行为包含了一组 API 请求,它们往往需要通用的环境,因此更适合被放在同一个单元中。

精子生于 1995.11.25, 21 岁,英文 ID jysperm.

订阅推送

通过邮件订阅精子的博客日志、产品和项目的最新动态,精子承诺每一封邮件都会认真撰写(历史邮件),有想和精子说的话也可以直接回复邮件。

该博客使用基于  Hexo  的  simpleblock  主题。博客内容使用  CC BY-NC-SA 3.0  授权发布。最后生成于 2018-01-16.