翻到2018年纽约客一篇 关于 Jeff Dean 和 Sanjay 的人物写真,挺值得一读。 回顾了这二十多年来,他俩是如何帮助起 Google 构建巨型索引存储,如何发明 MapReduce, 构建 Google Brain 和 主导开发了 TensorFlow。
没有 Jeff Dean 构建的这几个里程碑,就没有今天的 Google, 也没有今天的互联网和AI浪潮。
我翻译了开头的几段,也是最有意思的一部分。
"我们说我们在“搜索网络”,但实际上并不是这样;我们的搜索引擎遍历的是网络的索引——一张地图。1996 年,当谷歌还叫 BackRub 时,它的地图小到可以装在佩奇宿舍的电脑里。到 2000 年 3 月,没有一台超级计算机能处理它。谷歌唯一能跟上的方法是购买消费级机器并将它们连接成一个舰队。因为这些电脑的一半成本在谷歌看来是垃圾——软盘驱动器、金属机箱——公司会订购原始的主板和硬盘并将它们拼接在一起。谷歌在加利福尼亚州圣克拉拉的一栋楼里堆放了 1500 台这样的设备,堆成六英尺高的塔;由于硬件故障,只有 1200 台能正常工作。看似随机发生的故障不断破坏系统。为了生存,谷歌必须将其计算机联合成一个无缝、弹性的整体。
并肩作战,杰夫和桑贾伊负责这项工作。曾在苹果公司参与 Macintosh 前身开发的韦恩·罗辛于 2000 年 11 月加入谷歌,负责其百人工程团队。“他们是领导者,”他说。他们每周工作九十小时,编写代码以便单个硬盘故障不会导致整个系统崩溃。他们在爬网过程中添加了检查点,以便可以在中途重新启动。通过开发新的编码和压缩方案,他们有效地将系统容量翻了一番。他们是无情的优化者。当汽车转弯时,外侧车轮必须覆盖更多的地面;同样,旋转硬盘的外缘比内缘移动得更快。谷歌已将最常访问的数据移至外侧,以便比特可以更快地在读头下流动,但内侧一半仍然空着;杰夫和桑贾伊利用这些空间存储常见搜索查询的预处理数据。在 2001 年的四天内,他们证明了谷歌的索引可以使用快速随机存取存储器而不是相对较慢的硬盘来存储;这一发现重塑了公司的经济模式。 佩奇和布林知道用户会蜂拥而至使用能够即时提供答案的服务。问题在于速度需要计算能力,而计算能力需要花钱。杰夫和桑杰用软件解决了这个问题。
2005 年,Rosing 离开后,Alan Eustace 成为工程团队的负责人。Eustace 说:“要解决大规模的问题,矛盾的是,你必须了解最小的细节。”Jeff 和 Sanjay 理解计算机到比特级别。Jeff 曾经传播过一份“每个程序员都应该知道的延迟数字”列表。事实上,这是一份几乎没有程序员知道的数字列表:L1 缓存引用通常需要半纳秒,或者从内存中顺序读取一兆字节需要二百五十微秒。这些数字已经深深印在 Jeff 和 Sanjay 的脑海中。当他们帮助领导几次 Google 核心软件的重写时,系统的容量按数量级扩展。同时,在公司的庞大数据中心,技术人员现在按照软件生成的指令,沿着蜿蜒的路线更换硬盘、电源和内存条。即使其部件磨损和损坏,系统仍然蓬勃发展。
今天,谷歌的工程师们存在于一个从第一级开始的伟大链条中。最底层是 I.T.支持人员。二级是刚从大学毕业的;三级通常拥有硕士学位。达到四级需要几年时间,或者是博士学位。大多数人的晋升在五级停止。六级工程师——前百分之十的顶尖人才——如此有能力,以至于可以说他们是项目成功的原因;七级是有长期记录的六级。首席工程师,八级,与一个主要产品或基础设施相关联。杰出工程师,九级,被人们敬仰。成为谷歌研究员,十级,是一种终身荣誉。谷歌研究员通常是其领域的世界顶尖专家。杰夫和桑杰是谷歌高级研究员——公司唯一的两位十一级。
...
"
https://t.co/p6yhqiE4Rq
点击图片查看原图