发布日期:2026-03-24 07:18 点击次数:188

The Moonshot Podcast发布了一期深度访谈视频,X公司"独创东说念主"Astro Teller与Google DeepMind首席科学家Jeff Dean进行了一场近一小时的对话,回想了Google Brain项策动早期历程。
Jeff Dean可能是硅谷最被低估的"架构师"之一。不是因为他的时期不够牛,恰恰相背,连那些工程英杰齐把他看成偶像。而是因为他老是在建好一座大厦后就悄然离开,去寻找下一派旷地。
他在Google作念过搜索算法、作念过BigTable和Spanner这样的存储系统,又创立了Google Brain,每次齐是从零脱手,每次齐改变了所有这个词鸿沟的游戏规定。看完这期播客,我的嗅觉Jeff有很强的问题驱动特征,一个问题,每每带来一个关键时期标的的价值,比如语音识别带来的用户算力需求,告成催生了TPU。
接下来咱们就讲故事了。
有个细节很故兴趣。Jeff说他小时候搬了11次家,上了11所学校,惟一不变的是他的乐高积木老是随着搬家车所有这个词到达下一个方位。这种不休从头脱手、不休开采的东说念主生模式,似乎从9岁就脱手了。其时他爸爸从杂志背面看到一个电脑套件的告白,可以我方焊合拼装。那是1970年代末,比Apple II还早一年多。领先这台机器唯独明慧的灯光和前边板的开关,自后有了键盘,再自后有了BASIC解释器。Jeff从一册印刷的书上抄下101个BASIC游戏法子,一溜一溜地输入,然后脱手修改它们。
这让我想起文艺复兴时期的工匠们。他们不是站在高处调换的建筑师,而是亲手雕饰每一块石头的东说念主。Jeff即是这样一个数字时期的工匠,只不外他雕饰的是算法和系统架构。而Google Brain的故事,就像是他用2000台电脑搭建的一座数字大教堂。
1、"我有点爱恨交汇的关系"
当Astro问Jeff最常用什么编程语言想考时,Jeff的回答出东说念主猜度识坦诚:"我可能用C++最多,因为它是一种相称底层、性能导向的语言,我作念的许多差异式系统责任齐需要这种底层语言。但我和它有种爱恨交汇的关系。它统统不安全,你可以障翳内存,而更当代的语言有许多好的特质。"
他提到在议论生期间,导师发明了一种叫Cecil的语言,具有相称好的面向对象特质和模块化联想。他们用Cecil写了一个编译器,10万行Cecil代码,后端可以生成3000万行C代码。"那种语言的抒发力和圭表库联想其实格外可以,但可能全天下唯独50个东说念主用过。"
2、1990年,神经集聚的第一次春天
Jeff第一次简直宣战东说念主工智能是在明尼苏达大学的大四。那是1990年,他选修了一门差异式和并行编程的两学期课程。"作为课程的一部分,咱们宣战到了神经集聚,因为它们是高度并行的谋略模样。"
那时正值神经集聚的一个小上涨期。"80年代末90年代初,神经集聚有过一些隆盛点,因为它们似乎能处置其他步伐无法处置的真谛小鸿沟问题。"Jeff解释说,神经集聚的空洞很粗浅:东说念主工神经元从底下获取输入,决定是否引发以及引发的强度,然后构建更复杂的系统。"其时3层的神经集聚就算深了,当今咱们在作念100层的神经集聚。"
他找到讲明Vipin Kumar,请求作念一个对于并行神经集聚的毕业论文。"我想,也许咱们可以用系里的32处理器机器来测验更大的集聚,而不是用一个处理器。适度发现,咱们需要的不是32倍的谋略能力,而是100万倍。"
即便如斯,Jeff照旧终明晰两种并行化神经集聚测验的步伐:一种是数据并行(他其时叫"模式并行"),把输入分红不同批次,每个处理器有集聚的副本但只看到部分数据;另一种是模子并行,把大集聚切成片,所稀疏据通过所有这个词片。这些意见在30多年后的今天仍然是深度学习的中枢。
3、在微厨房碰见吴恩达(Andrew Ng)
2011年,Jeff正在Google作念Spanner大鸿沟存储系统。口头沉着厚实,他脱手寻找下一个要作念的事情。就在这时,他在Google的微厨房遭遇了Andrew Ng。
"Andrew是斯坦福的讲明,我想是你或Sebastian把他带到Google X的。他每周来一天。我问他,'你在这里作念什么?'他说,'我还不知说念。但我的学生在斯坦福脱手在神经集聚上获取真谛的适度,用在语音和视觉诓骗上。'我说,'真的吗?我可爱神经集聚。咱们应该测验真耿直的集聚。'"
这即是Google Brain团队的发祥。Andrew有一个"深邃":集聚越大,效力越好,但没东说念主确信他。而Jeff正好是阿谁能把这个主义例模化的东说念主。"Andrew的刻画是,'咱们需要的是Jeff。咱们需要让这个表靠近Jeff有满盈的劝诱力,这样1+1就能等于10万。'"
他们决定用Google数据中心的谋略机来作念差异式神经集聚测验系统。其时Google的数据中心还莫得GPU,是以他们用了2000台谋略机、16000个CPU中枢。"咱们测验了一个20亿参数的谋略机视觉模子。"
4、YouTube上的猫
最着名的破损是那只"平均猫"。团队用无监督学习算法,从YouTube立时抽取了1000万帧视频进行测验。"这基本上是在为YouTube的立时像片寻找一种压缩算法。"Jeff解释说念。
模子的最高层有4万个神经元,议论东说念主员可以不雅察是什么让这些神经元引发。"真谛的是,模子通过无监督学习基本上发明了'猫'的意见,因为在优化算法中,为与图像底层像素中的'猫性'高度忖度的特征分派一些容量是故兴趣兴趣的。"
除了猫,他们还发现了其他特征:行东说念主的背影、有点诡异的东说念主脸。"如果你平均那些让特定神经元最隆盛的东西,就可以创建出让这个神经元最热烈引发的输入模式。这就像干涉某东说念主的大脑,正巧大概刺激他们的'祖母神经元',然后他们脱手想起祖母。"
在ImageNet 20000类别的基准测试中,这个巨型神经集聚终明晰60%的相对作假率缩小,比之前的神经集聚大50倍。在语音识别上,他们用800台机器测验5天,终明晰30%的词作假率相对改善。Jeff强调:"这格外于20年语音议论进展的总额。"
5、如果1亿东说念主每天敌手机讲话3分钟
2013年,语音识别的破损让Jeff脱手惦记一个"幸福的郁闷"。他作念了一个想想实验:"如果语音识别效力很好,东说念主们会脱手更多地使用它。昔时每5个词就有一个作假,听写到手机上然后更动许多词其实并不省期间。但如果每30或40个词才有一个作假呢?"
"如果1亿东说念主脱手每天敌手机讲话3分钟会若何?"Jeff在幻灯片上谋略,如果部署在CPU上,"咱们每天需要18背面跟28个零的浮点运算。必须有更好的步伐。"
这促成了TPU(张量处理单位)的出生。神经集聚有两个很好的特质:主淌若线性代数运算(矩阵乘法、向量点积),况且对精度缩小有很强的容忍度。"不像高性能谋略的数值模拟软件需要64位或32位浮点数,神经集聚履行上可以使用相称低的精度。第一代TPU唯独8位整数运算,根底莫得浮点运算。"
自后的TPU增多了Bfloat16口头。"IEEE有一个16位口头,但对机器学习来说不太好,因为它同期失去了一些余数位和指数位。对神经集聚来说,你宥恕的是大概清晰相称宽的值范围,而不太宥恕少许点后第五位。"
6、肃肃力即是你需要的一切
Jeff发达先容了语言厚实的三个破损。起原是词的差异式清晰:"不是把'纽约市'清晰为字符,而是用一个千维向量来清晰它在高维空间中的内在含义和出现的潦倒文。"
这即是Word2Vec算法的魅力:"国王减去男东说念主加上女东说念主等于女王。在高维空间中,标的变得故兴趣兴趣。从公牛到母牛的标的,与从国王到女王的标的相通,与从他到她的标的相通。"
第二个破损是序列到序列模子,由Oriol Vinyals、Ilya Sutskever和Quoc Le开发。这个模子使用LSTM(口角期牵记集聚)来处理序列。"你可以接收一个句子,最终得到一个向量,代表模子对该句子的厚实。然后用这个向量来开动化你要生成的序列的解码。"这不仅适用于机器翻译,还适用于医疗记载、基因组序列等。
第三个破损是Transformer和肃肃力机制,由Noam Shazeer等八位合著者开发。"不是在每个词更新单个向量,而是记着所有这个词向量,所有这个词咱们履历过的中间景况,然后关注所有这个词这些。"
固然这在序列长度上是N日常的复杂度,但有一个弘远上风:"处理文本时,你可以并行处理。不像LSTM有法例瓶颈,这里你可以取1000个词并行处理,谋略所有这个词需要的景况然后关注它。这更适宜当代ML处理器的高度并行矩阵单位。"
7、从制造到联想的滚动
谈到AI的将来,Jeff合计咱们正在履历一个根人性滚动:"咱们将看到从东说念主类制造东西到东说念主类更多地指定他们想要什么的弘远滚动。这不一定更容易,但我合计会更真谛。它将为东说念主们开释大批创造力。"
他举了Notebook LM的例子:"你可以输入一堆PDF,说'请为我生成一个播客,用两个AI生成的声息来询查这份公司季度证据'。模子在幕后履行上可以作念大批责任。"
当Astro问他个东说念主如何使用AI时,Jeff说:"我用它来探索新鸿沟。我会说,'告诉我某个我不太熟习的新鸿沟的令东说念主隆盛的新趋势'。它会给我一些信息,然后我可以建议后续问题。"
他强调个性化的进攻性:"这种通用天下常识与你我方的个东说念主景况勾通起来将是一个相称进攻的趋势。比如,'你能帮我在亚利桑那州找到下周我可能可爱的餐厅吗,雷同于我客岁在东京去过的那些?'它应该在你的许可下知说念你作念了什么,并大概提供相称个性化的建议。"
8、100万个憨厚和一个学生
在询查AI的社会影响时,Jeff建议了一个真谛的愿景:"我的一个不雅点是,咱们如何能有1亿个憨厚和一个学生,或者说几个能力很强的模子,一直被东说念主们讲明新东西,然后每个东说念主齐从这些教悔中受益。"
他对耕种格外隆盛:"在学生锻真金不怕火比例很大的地区,你可以为每个学生配备一个个性化导师,匡助他们学习任何感兴致的东西。我合计这将是令东说念主难以置信的变革。"
在医疗保健方面:"荟萃那些对个体大夫可能不太赫然但在测验模子以获取许多大夫劝诫时相称赫然的空匮趋势。"
但他也意志到挑战:"作假信息不是新问题,但已而间你可以制作传神的声息和传神的视频,让某东说念主说他们履行上莫得说的话。"这即是为什么他与其他8位作家共同撰写了一篇对于"塑造AI"的论文,辩论AI发展中的社会问题。
9、厚实他们的厚实
对于厚实神经集聚的挑战,Jeff指出:"这些模子当今如斯之大,咱们基本上一经烧毁了像厚实代码那样厚实这些模子。咱们当今厚实它们的厚实更像是神经科学,咱们不雅察这些数字大脑的部分,试图推断它们为什么作念它们所作念的事情。"
他合计可解释性议论的一个标的是交互式探伤:"如果我想厚实你为什么作念出某个决定,我会和你对话。我会说,'你为什么接管绿卡?这似乎是个奇怪的接管。'然后你会复兴,我可能会建议后续问题。"
"这有点像过后的辩解。只是因为我说这即是我这样作念的原因,并不一定意味着我确信这即是原因,或者即使我确信,那也不一定是我其时的简直动机。"
10、五年后的Jeff Dean
当被问到接下来五年的贪图时,Jeff的回答依然聚焦于履行问题:"我想花一些期间弄清亮如何让能力极强的模子更具老本效益,大概部署给数十亿东说念主。当今,咱们最有能力的模子在谋略老本方面格外腾贵。"
"我有一些正在酝酿的主义,可能行得通,也可能行欠亨。但这即是尝试朝一个方上前进的巧妙之处。偶然你确乎到达了你合计要去的方位,偶然你走到一半就偏离了一丝,但在经过中你会产生有效的东西。"
这很合适Jeff的立场。从11次搬家的孩子,到用2000台电脑测验神经集聚的工程师,他一直在开采、离开、然后从头脱手。也许这即是简直的"登月精神":不是占据山头,而是不休寻找下一座要攀高的山岭。
三个中枢知悉:
Q:为什么Jeff Dean能一次次得手"从头脱手"?
A:他有一种荒原的能力组合:既能潜入底层细节(比如8位整数运算),又能看到系统全貌(2000台机器的合作)。更进攻的是,他不恋栈职权,而是享受从零脱手开采的经过。
Q:Google Brain最大的孝顺是什么?
A:不单是时期破损,更是证据了"鸿沟"的力量。当学术界还在争论神经集聚是否有效时,他们用工业级的资源证据了:只消满盈大,它就能责任。这改变了所有这个词鸿沟的想维方式。
Q:AI的下一个破损会在那儿?
A:Jeff清晰了两个标的:一是老本效力(让苍劲的模子能被数十亿东说念主使用)世博体育(中国)官方网站,二是个性化(将通用常识与个东说念主景况勾通)。这意味着AI不再是少数东说念主的器具,而会成为每个东说念主的"领略蔓延"。
Powered by 世博官方网站(官方)手机APP下载IOS/安卓/网页通用版入口 @2013-2022 RSS地图 HTML地图