我开发了一个基于 Beancount 的账本托管服务 HostedBeans,欢迎大家来了解纯文本复式记账并试用我的服务。

笔记:互联网电子邮件架构

果然写笔记是最好的读书方式,这里的笔记绝不是对知识点的堆砌,而是要让没读过这书的人有一个大概的了解,或者让读过书的人有新的发现。

最高效的阅读便是从书中为自己寻找论据。

在我的日志中,“笔记”前缀表示我这是现学现卖,对内容没太多把握。

电子邮件的出现要比Web早得多,一直以来都可以算是互联网的核心服务之一。

应该说由于历史遗留问题,目前电子邮件的架构并不完美,但一直都没有合格的替代品出现。

电子邮件使用SMTP协议被发送,SMTP是一个“简单”的,基于纯文本的交互式协议,位于TCP之上。当A向B发送邮件时,A向B在25端口上发起TCP连接,使用SMTP协议向B传输一份邮件,同时指明发信人地址和收信人地址。

这时,A和B就可以称为邮件服务器,通常一个邮件服务器是既可以收信也可以发信的,即同时是SMTP服务器和SMTP客户端。作为一台服务器,需要保持时刻在线,以便随时接收新邮件。显然,用户是不会直接使用服务器的。

在经典的电子邮件架构中,在每个用户的个人计算机上,都有一个本地SMTP代理,它负责在本地收集邮件,并定时发往服务器。引入本地SMTP代理后,A向B发送邮件时,用户A将写好的邮件交给本地SMTP代理(通常是个人计算机上的一个用户程序),本地SMTP代理通过SMTP协议将邮件发送到A的邮件服务器,A的邮件服务器再将邮件通过SMTP发送到B的邮件服务器。

本地SMTP代理和邮件服务器都会维护一个邮件队列,逐个发送邮件,当邮件无法送达时会进行几次重试,仍无法发送时会退回发信人。

邮件已经到达了B的邮件服务器,再来考虑B如何收信。B的个人计算机并不能保证时刻在线,也可能没有固定的IP地址,所以邮件服务器很难将新邮件发送到他的个人计算机上。

可以想象,SMTP是一个“推送”协议,当有新信息时,由发信人向收信人推送信息。而在从邮件服务器检查新邮件时,我们需要的可能是一种“拉取”协议,由收信人定时拉取新信息。

于是有了POP3, 它同样是在TCP之上的,基于纯文本的“简单”交互式协议。个人计算机上的POP3代理,定时使用POP3协议从邮件服务器检查新邮件,同时将新邮件下载到个人计算机。

除POP3以外还有功能更加复杂的IMAP协议,IMAP协议在POP3的基础上还支持同步阅读状态,搜索,建立文件夹对邮件进行分类等等功能。

SMTP代理和POP3(IMAP)代理分别代表了收信和发信,它们通常是一体的,称为邮件客户端,如Outlook, Thunderbird.

一封邮件除了正文之外,还可能有很多元信息,如收信人,发信人,日期,标题,收信来源等。这些键/值对信息以邮件报头的形式存在于一封邮件中,非常类似于HTTP中的报头。在早期的SMTP协议中,仅在邮件中支持ASCII字符,无法使用非ASCII字符(如中文),也无法使用格式文本和嵌入附件。于是出现了MIME标准,通过将邮件正文(base64)编码,并添加特殊的报头信息,即可实现使用非ASCII字符,使用HTML, 嵌入图片和附件等功能。

形如 m@jybox.net 的电子邮件地址指明了该邮箱位于 jybox.net 这台服务器上,对应的用户名是 m, 显然我们可以通过DNS查询到jybox.net所对应的IP, 但电子邮件服务器并非由通常的A记录指定,而是有专门的MX记录。发信人通过向DNS查询邮件地址中域名的MX记录来找到收信人的邮件服务器。

我们再来考虑安全性问题,SMTP是可选验证的。在本地SMTP代理向邮件服务器提交邮件时,通常是需要验证用户名和密码的,因为邮件服务器只希望向它的用户而不是所有人提供邮件转发服务。而在邮件服务器间发送的邮件则无需验证,因为你需要接收来自所有人的邮件。

至于邮件拉取协议(POP3, IMAP)显然也需要验证,因为一个人只应当能够查看自己邮箱里的邮件。

至此,还没有任何方式来鉴定一封邮件的真伪,任何人都可以在向收信人邮件服务器发送邮件时伪造发信人地址。为此,你可以通过DNS在一个域名的TXT记录中查询到一份被称为SPF的记录,该记录指明了经过认证的,用于该域名的发信服务器的地址,若发信人不是这个地址,则可以认为邮件是伪造的。除此之外,还有一些手段可以对SMTP进行加密,签名,工作量证明,但它们不是业界标准的一部分或应用较少,这里不再介绍。

Hotmail是当年最为成功的,基于Web的免费邮件服务,现在几乎所有邮件服务提供商均支持通过Web发送和接收邮件,甚至不再提供SMTP和POP3/IMAP访问服务。

不过随着智能手机的普及,SMTP和POP3/IMAP又回来了。

零毫秒:去中心化网络:关于网络架构和节点查找的讨论

零毫秒,计划已久,也拖了很久,其概念一直都在我的脑海中,这可能是第一篇正式的“讨论”。

之所以是讨论,是因为我对整个系统的架构依旧迷茫。而相比之下,RootPanel(RP主机面板), JyBBS(论坛系统), 的蓝图则非常清晰,实现起来不过是时间问题而已。

目前最大的困难是没人和我讨论,这个项目几乎走在了世界前列,没有多少资料可以借鉴,希望正在读的《计算机网络——自顶向下方法》能给我一些帮助。

然而当前几天我看到又一个类似项目,比特信(BitMessage)的时候,不能再忍了。

纵观现在的互联网,个人认为它具有以下几个特点:

面向信任模型

即默认假定网络中的节点都是受信任的,如:IP和TCP, UDP数据报均不加密不签名,传输过程中的任何路由节点均可修改数据报。IP不提供担保,能否无误送达取决于中间路由节点。发信人向收信人发送数据报完全不需要收信人的同意,收信人无法拒收。

分层架构,在端点实现功能

即大多数功能在通信的两端实现,中间的路由无需关心,只需转发。如TCP的面向连接,排序,错误重传,IP的分段等等。

同时协议分层,上层协议更新不影响底层协议。

天生去中心化

互联网从未依赖于一个中心节点,每个路由都是独立工作的,这使得没有人能控制整个网络,除非控制每一个路由器。同时即使一处网络断开,被分割的各个部分也可以单独工作。

IPv6一定程度上解决了IPv4在上述特点中暴露的问题,IPv6的普及工作已经进行了十几年,仍没有显著成效。零毫秒希望在应用层组建一个去中心化网络,为上层应用提供身份验证,名称注册,加密传输,节点查找,信息广播/查询,组群,离线储存等功能。作为一个示例,零毫秒会首先实现一个即时通讯软件。

可以预见,在应用层进行数据报转发是非常不明智的。零毫秒也分为多层架构,在核心(最底层)只转发控制指令,实现最为基本的组网和节点查找功能,毕竟只要找到目标节点,即可进行点对点通讯。通过组件树状的结构化网络,为上层应用提供方便,使网络流量最小化。

零毫秒分层:

  • 核心层:组网,节点查找,身份验证,组群
  • 服务层:名称注册(加强版DNS), 信息广播和查询,离线储存
  • 应用层:应用自有协议,如即时通讯

零毫秒网络有树状的结构,每个树节点有30个子节点。最次一级叫NNode(Normal Node), 其余具有子节点的树节点叫MNode(Master Node). 由底向上,由多至少,按层级分别为M1Node, M2Node, M3Node, 可无限扩充。一个新节点接入网络时,只需知道网络中任意一个节点的地址(IP和端口), 即可通过它获取到M1Node列表,并逐个尝试接入。网络中第一个节点启动时,则直接默认自己是M1Node. MNode需要有公网IP, 或使用UPnP.

加入网络后,作为NNode, 可以向M1Node申请成为M1Node. 成为M1Node后可向M2Node申请成为M2Node, 如果没有M2Node, 则像其他M1Node申请成为第一个M2Node.

申请是否成功并非绝对,有多少节点通过了你的申请,你就成为了多少节点眼中的MNode. 处理申请时要考虑的因素包括:网络延迟,带宽,已有节点数量,历史信用等。

这可能让读者存在一些疑惑,最高级的MNode是否可以控制整个网络,进行破坏呢?事实上因为零毫秒会对每一个数据包进行加密和签名,所以即使是MNode也无法对数据包进行篡改。当然它可以选择不作为——不按约定转发数据包,但这种行为会很快地被发现,其他节点会很快自动地推选出另一个MNode. 同时可以在核心层实现一个简单的点对点信用系统(类似于电驴的积分系统), 每当上级MNode为自己提供服务时,即为对方增加一点信用值,当上级MNode出现丢包,网络中断时,即为对方减少信用值。一段时间后,该信用值将能够很好地评估对方是否适合成为一个MNode.

我们再来讨论该模型的负荷,很显然,整个网络的节点数量取决于MNode的层级,以30为底数呈指数关系,而整个网络的瓶颈在于最高级的MNode, 因为在接下来的设计中,MNode需要储存(缓存)其所有(直接或间接)子节点的信息。这些信息包括256 Byte的用户ID(公钥), 18 Byte的地址(兼容IPv6, 以及端口号), 可选的256 Byte的额外信息(如节点层级等等), 合集530 Byte.

下表是含有M1Node至M8Node的网络下,可容纳节点数与MNode所需储存的信息的表格:

M1Node90016 KiB
M2Node2.7万477 KiB
M3Node81万14 MiB
M4Node243万429 MiB
M5Node7290万13 GiB
M6Node2.2亿390 GiB
M7Node660亿11 TiB
M8Node2万亿330 TiB

以当前硬件水平而论,M1Node至M3Node, 甚至M4Node, 都可以运行于个人计算机。而M4Node和M5Node适合运行于服务器,M6Node可运行于高性能集群。至此,M6Node已可以容纳2.2亿个节点。至今内存的发展远未达到瓶颈,仍在以摩尔定律预测的速度更新,更何况MNode可通过散列表,数据库引擎等技术来降低内存占用,所以单就内存而言,我认为不存在瓶颈。

在这种树状结构下,节点查找显得十分有序:逐级向上查找即可。查询经过的节点数量在最不理想的情况下,和网络规模(节点数量)成对数关系。当然,前文只讨论了内存瓶颈,毫无疑问最顶层MNode会收到大量的查询请求。但我们可以非常简单地通过集群来处理查询。即使在极大规模的MNode, 如M7Node, 我们也可以通过两层集群轻松应对:路由将零毫秒的数据包(甚至可以不做区分,直接全部)随机发往第一个集群,读出被查询的ID, 进行散列后发往第二个集群中的散列值前缀指定的服务器。每个服务器只需处理指定散列前缀的查询。数据包加解密和序列化可由单独的服务器进行。

在具体实现方面,我选择了以RSA公私玥对作为用户标识,公钥为ID, 私钥为凭证,每个数据包均需签名,签名值同时可以作为一个数据包的编号。节点之间使用SSL连接,支持IPv6. 因为目前所讨论的内容只涉及控制指令,所有指令都无需加密,这样可以使节点列表等信息被中间节点所缓存。所以只需在节点之间加密即可,无需在端点之间进行加密。

我选择使用JSON来承载通讯协议,因为JSON应用广泛,被众多开发环境支持,易于调试,具有很好的扩展性,同时可作为流来使用。为提高传输性能,可以考虑使用其二进制版本BSON, 也可以JSON, BSON双支持,前者用于调试环境,后者用于生产环境。

我还需要指出目前设计存在的几个问题:

节点的聚合方式

30个节点依据什么聚合在一起?我更倾向于按网络情况聚合,这样可以保证在网络的任意部分都具有高速的连接。不过也可以考虑通过经常联系与否来进行聚合,毕竟在较低层级处理查询将显著减少顶级MNode的负荷。

单个节点如何估计网络规模,选择时机进行“升级”

时间校准

数据包中应当包含时间戳,以供今后查证,但很难找到一个去中心化的时间校准方式。

电影:致我们终将逝去的青春

流水账

今天和许小璐去看了这电影,第一次去电影院啊,不算学校带着去的话。

最近一个月,总能在各种渠道看到这部电影。电影看着看着,发现好多台词我都听过。

比如“也许我愿意跟你一起吃苦呢?”“但是我不愿意!”,只是当时不知道出自哪。

听说是赵薇的导演系毕业作品,我也没报多大期待。

电影本身

也许我不在那个时代,对电影中那一代人的青春,我没有什么共鸣,更何况我也没上过大学。

说实话我看得稀里糊涂,角色太多,都是学生,没太鲜明的特点,没有主次关系,记不住;头重脚轻,后半部分铺垫不够,情节发展显得有些莫名其妙;有的情节略做作(如开头寝室那段)。

我也只能挑这么几块骨头了,因为我没看出有什么主导精神,或者说电影想要表达的观念,甚至没有讲一个完整的故事,更像是一个个场景片段的堆叠。

也许这电影就是用来纪念那一代人的青春的,可能真的不是给我看的。

但我总是喜欢看别人的故事的。更重要的是这些零碎的片段,让我想到了我的青春,不是过去,而是在将来。

如果要挑一句台词展开来说,我想会是“我的人生是一栋只能建造一次的楼房,我必须让它精确无比,不能有一厘米差池”。

没有如果

我也希望我有一个幸福的人生,但我不认为人生是一栋整齐的楼房,整齐划一,精确无比。

我会把人生比作旅行,有无数条路可以通往目的地,每条路上的景色各不相同,每时每刻都在做选择,不能回头。

我不会为我的选择后悔,因为每条路上都有不同的风景,而且无法预见。我总是喜欢拿我初一从雨田退学的事情说事,那是迄今为止我人生中最大的转折点,很多事情从那以后都变了。

小学的时候,我是个非常好动,淘气的孩子,出了名的。小学六年级,我爸妈以买电脑为利诱,忽悠我去考雨田——这是个变态的初中。

初一我突然进入了雨田这个,全沈阳出了名的快节奏的初中,周围都是学霸,甚至我觉得我现在的高中都不及那竞争激烈。我一直想不通我在为了什么,这么起早贪黑地学习,当时也没现在这么多理论,没想太多,就是坚持不下去了而已。于是因为一点小事和父母闹了起来,一连半个月没怎么上学。再回到学校,我总觉得同学和我有距离了,看我的眼神和以前不一样了,再加上因为成绩下滑被老师特殊关照,开始变得自卑,想和同学们一样,但又不想上学,就这么矛盾着。这样的状态一直持续了半年,其间三天两头地不去上学,终于我还是从雨田退学了。父母又在这时候离婚,我发现我很难解释为什么我妈不在了,另一个女人又是谁,直到一年多以后我才释怀。就是从这个时候开始,我变得内向,和不熟的人话很少,一副天然呆的样子。

后来和雨田同班的同学聊天,发现一切都只是我想多了,他们从未觉得我从那逃离是很失败的,甚至觉得我很酷。

但现在即使我不再自卑,性格也很难改变了。

从雨田退学,我转到了我们家附近的一个普通的初中,不能说这里不好,只是这里普通人更多一点,我被分到了最后一个最“普通”的班。这一下,我从一个极端到了另一个极端,这里没有学霸,却有抽烟逃学打架的考试零分,班里就二、三十个人,教室显得空旷旷的,但老师也更有人情味,不像现在的班主任,总像戴着面具一样。

在这里我见到了更多普通人的生活,那些没机会考上高中的,父母老师眼中的“不正经”的孩子,他们也有自己擅长的事情,也有积极的一面,他们也有父母家人,他们不可能将来都去“捡破烂”,他们也会有自己的生活,也会很幸福。

现在想起来从小我就对电脑有种特殊的感情,在幼儿园的时候,家里短暂地有过一台电脑,当时我并不知道电脑可以玩游戏,也不知道可以上网——我根本不知道它能干什么,只是觉得很酷。从那以后,整个小学,我都喜欢在本子上,用笔来画电脑上那些图标,界面,游戏,画了六年,都没厌倦,这也许是我小学同学对我最深刻的印象之一,并不是画着玩,而是当成一个作品来画,虽然只是简笔画而已,我的美术一直不好。我父母爷爷奶奶,很多次开玩笑地说,也许你以后会设计自己的电脑,软件,游戏呢。

谁又能想到,我现在在做的事情呢?远远超出当时的想象。同样的话在三年前(2010.1)我也感慨过,现在看来,三年前的我又是另外一个模样。

现在随便拿出小时候画的东西,我就能够滔滔不绝讲个没完,只怕没人愿意听。我在想如果当时有这样一个大哥哥给我讲解会怎样呢?不,没有如果。

入门编程只是因为退学在家成天打网游,打到没意思了,碰巧一小学同学托我帮他研究一下如何破开机密码。从那以后,不可思议地,五年的时间我从未想过放弃。

我在想如果当初没人拜托我帮他查东西,或者我被第一个问题难倒,放弃,我现在会怎样的?不,没有如果,没有人能预见这些事情。

我即将做的下一个决定是不去上大学,对于比较守旧的长辈(很高兴我的父母不在内)来说,这是天大的事情。在我较为年轻的网友里(只算大学毕业或已经工作的), 认为我应该上大学的,和劝我千万不要上的,几乎参半,他们都有自己或朋友的故事,讲给我听。这更加坚定了我的想法:每一条路,都有不同的风景,而且你无法预见。更重要的是,我很清楚接下来的路我要怎么走,我不会后悔。

我是个很固执,很天真的人,也许你觉得用天真来形容我很不恰当。但我相信世界总是在向好的方向发展,我相信正义终能战胜邪恶,阴暗面会越来越少,我相信付出总会有收获,我相信会有纯粹的友情和爱情,我相信宪法早晚能够切实落实下去,我相信每个人都有像我一样天真的一面,你相信么?这不是开玩笑,我觉得一个人的世界观,在17岁可以算是初步形成了。

我当然知道社会的阴暗面,甚至比大多数人更多,因为你们接触到的很多信息都是被过滤过的。上周五,一位艺术招生培训的老师给我们讲他的故事,讲那种畸形的社会规则,我只是希望能够通过我的努力,至少能让我和我的后代,远离这种畸形的规则,不必再去做违心的事情。

我的青春

还有半年我就18岁了,成年了,一直都是孩子,什么事都有父母担着,在学校也只需要照着做就是了,以为长大是很遥远的事情。虽然长大不是一个干脆的分界线,但也意味着我要改变观念,开始独立了。

说实话我不觉得在资金来源上有什么问题,按照RP主机现在的势头,我甚至可以不必去工作也有足够的收入。我感觉和同龄人相比,我欠缺的是与人沟通的经验,甚至是“玩”的经验。这些年实在太宅了,一直泡在网上,毕竟学校那么小,志同道合的人太少。

虽然我这么叛逆,但我觉得我还算是一个标准的乖孩子,过分老实的乖孩子,没干过任何“出格”的事情,什么事我都敢摊开了讲。

不管什么片子,多么烂大街的情节,只要沾了青春,爱情,都能卖座。

以前我对初中那些秀恩爱的不以为然,谁说青春只有爱情。我一直觉得只有经济能够独立了,勾搭妹纸才会有底气,否则花着父母的钱终究不痛快。所以现在这是巧合么?现在才开窍是不是太晚了点。

大人常说赚了钱就知道不易了,知道省着花了。虽然我爸死活不同意按月计算收入,非要收回17年所有的成本才算赚钱。

而我恰相反啊,最近赚了点钱,但反而却花得更快的(也许是之前太小气了),我没想节约,只是想赚更多,直到够花。看来我就是不知满足啊,注定要奋斗啊,我的青春才刚刚开始。

这篇日志写了 6 个小时以上我会说么 … 算是我最文艺的日志了

精子生于 1995 年,英文 ID jysperm.

订阅推送

通过 Telegram Channel 订阅我的博客日志、产品和项目的动态:

王子亭的博客 @ Telegram


通过邮件订阅订阅我的博客日志、产品和项目的动态(历史邮件):

该博客使用基于  Hexo  的  simpleblock  主题。博客内容使用  CC BY-NC-ND  授权发布。最后生成于 2025-02-10.