最好看的新闻,最实用的信息
06月05日 18.9°C-20.7°C
澳元 : 人民币=4.82
珀斯
今日澳洲app下载
登录 注册

“今天的OpenAI,就是昨天的Sun!” 杨立昆最新长谈:像Linux击溃微软一样,开源AI终将统治世界

17天前 来源: 网易 原文链接 评论0条

“如果你在读博士,别去研究LLM。毫无意义。你做不出什么贡献。”

今年年初,图灵奖得主、深度学习先驱杨立昆(Yann LeCun)做出了最决绝的选择。在一手缔造了 Meta FAIR 实验室的辉煌后,他选择剥离巨头光环,创立了专注“世界模型”的新阵地——AMI Labs。此后他在很多公开场合都分享了大大小小的 Meta AI 内幕,包括离开的原因、和华人小将 Alex Wang 的“宫斗”以及未来的计划等等。

在五月份最新的这场万字深度对话中,杨立昆系统性地阐述了他的“逆行”逻辑,并以前所未有的坦诚,对当前 AI 生态抛出了极具穿透力的底层剖析:如果今天几乎所有大公司都在押注同一种技术范式,而这套范式又已经肉眼可见地开始撞上边界,那么下一步到底在哪里?

“今天的OpenAI,就是昨天的Sun!” 杨立昆最新长谈:像Linux击溃微软一样,开源AI终将统治世界 - 1

过去两年,大语言模型几乎重写了整个 AI 行业的叙事。它让代码生成、数学推理、内容生产、搜索和 Agent 重新变成一门显学,也让 OpenAI、Anthropic、Google、Meta 这些公司被拖进一场越来越重的军备竞赛里。但与此同时,另一组现实也开始变得越来越刺眼,高质量公共语料在枯竭,模型越来越贵,闭源越来越重,整个硅谷越来越像在同一条战壕里做同一件事。

杨立昆最不买账的,就是这条路线被过度神化这件事。

以下为本次极具思想密度的对谈实录精校版:

要点速览

  • LLM 是“有用的产品”,但不是通往人类级智能的道路。原因不在于它不够强,而在于它缺乏预测行动后果、形成计划和建模真实世界的能力。

  • 主流 LLM 路线最大的问题,不只是贵,而是天然更适合语言、代码、数学这些符号系统,不适合处理高维、连续、充满噪声的真实物理世界。

  • 硅谷正在出现明显的羊群效应,几乎所有公司都在追同一条路线,而高质量公共数据的枯竭、训练成本的暴涨和闭源加剧,都在让这条路的边界越来越清晰。

  • 杨立昆承认对 Llama 没有技术贡献,真正推动的是 Llama 2 的开源;而他离开的深层原因,则是 Meta 已不再适合推进 JEPA 和世界模型这类长期研究。

  • 研究、开发和产品之间本来应该有连续的接力机制,但当短期 KPI 和竞争压力压下来以后,探索性研究往往会最先失去优先级。

  • Tapestry 项目这套构想试图为美国和中国之外的国家提供另一种 AI 主权路径,通过联邦式协作训练开放基础模型,再让不同文化、语言和价值体系在其上做本地化微调。

LLM 并非通向人类智能的道路

主持人:杨,这真是我的荣幸。您是AI界的教父之一。我觉得几年前我刚开始做这个播客时,就一直盼着有一天能邀请到像您这样的人物。

杨立昆:我不太喜欢“教父”这个词,因为我住在新泽西。在新泽西,当你被称为“教父”时,那可不是同一个意思。

主持人:说得很对。显然,当年在所有人都对神经网络持怀疑态度时,您依然选择押注于此,这本身就是一个传奇。我觉得今天您在很多方面也做出了类似的押注——您在逆势看衰LLM和许多人深信不疑的主流生成式架构。最近,您围绕这个主题创立了一家新公司。我们今天对话的目标,是让听众对AMI这家公司、你们在做的事情、您在Tapestry项目上的工作有更多的了解;探讨为什么您认为该领域的其他人对生成式模型的方向走偏了;同时,也听听您对该领域发展历程以及您在Meta时光的回顾。

我想最好直接切入正题,因为这家公司似乎是您未来技术理念最清晰的宣言。您最近创办了这家专注于世界模型和扩展JEPA(联合嵌入预测架构)的公司,而JEPA显然是您在Meta时开创的。我想请您谈谈这个架构的起源,以及它在多大程度上是从人类大脑及其运作方式中汲取了灵感?

杨立昆:首先,我想声明,LLM本身并没有什么问题。从某种意义上说,LLM是我们所有人(包括我)都在使用的大量非常实用的AI产品的基础。在它们擅长的领域,它们表现得非常出色。我只是说,它们并非通向人类级别或类人智能的路径,甚至连动物级别的智能都达不到。这就是我的主张。我不是说它们毫无用处,我只是说它们不是通向人类智能的道路。

主持人:毕竟,您也参与构建了一些最早的主流开源LLM,对吧?

杨立昆:绝对是的。那么,AMI是什么?AMI代表“高级机器智能”(Advanced Machine Intelligence),它的副标题,或者说座右铭,是“为真实世界打造的AI”。基本上,人们今天所熟知的许多AI技术都擅长处理语言操作。无论是人类语言、计算机代码、数学,还是法律术语——虽然法律术语勉强算得上人类语言。

语言在某种程度上是非常特殊的,它特别适合最近大获成功的这类架构,也就是大型语言模型、GPT风格的架构。但是真实世界呢?理解物理世界又该怎么做?事实证明,现实比语言要复杂得多,因为它是高维的、连续的、充满噪音且杂乱之章的。

训练一个系统去理解真实世界要困难得多。这正是我们正在追求的目标。这也是我职业生涯大部分时间都在追求的东西,并且在过去五六年里加速推进,在过去两年里取得了重大进展。因此,围绕它创办一家初创公司,并全力以赴地推动它,是顺理成章的。到了去年年底,情况变得很明显:Meta确实不再是推进这件事的合适地点。这就是我离开并创立AMI Labs的原因。

主持人:许多人从大公司或研究实验室分离出来,去追求他们特别看好的某个研究方向。在这些公司里,似乎存在着一种张力:一边是“去探索尽可能多的不同研究方向”,另一边是“嘿,有个东西真的很奏效,这是我们未来6到12个月要卖的产品,去专注于那个”。我很好奇您对这种现象的看法。

杨立昆:这是一种很奇怪的权衡。研发实际上有两种模式。一种是大量的探索性研究,包含许多不同的研究方向。而有时候,某个东西似乎奏效了,你需要进一步推动它,这时它就不再是纯粹的研究了。从事这项工作的人可能还被称为研究员,或者至少在新闻报道中被称为研究员,但实际上它变得更偏向于工程化,是为了推动产品落地。

这种情况在Meta发生过好几次,起因都是FAIR发起的项目。在2023年初就发生了这样的事,当时在FAIR开发的Llama 1非常有前景。于是Meta创建了一个完整的组织——GenAI(生成式AI部门),来把它变成真正的东西和一系列产品。

但在过去一年里还发生了一件事,公司意识到自己有点落后了,所以将战略重心重新集中在试图追赶行业步伐上。这带来的一个令人遗憾的副作用是,许多探索性研究基本上不再被赋予高优先级。

主持人:当您审视那些让您对JEPA模型感到兴奋的证据,并将其与生成式流派所做的工作进行比较时,您认为在对比这些架构和方法方面,我们今天处于什么位置?

杨立昆:“世界模型”现在正迅速成为一个流行词。如果你愿意这么分的话,这里面有两个阵营。我不想谈论VLA,因为现在人们已经清楚地看到VLA走进了死胡同。它真的行不通。VLA指的是视觉-语言-动作模型。这现在几乎被视为一种失败。它不够可靠,需要太多的训练数据。

然后就是世界模型。什么是世界模型?从非常宏观的层面来说,世界模型是让一个具身智能系统能够预见自身行动后果的东西。预测自己行动的后果。在我看来,我无法想象你怎么能去构建一个智能系统,而这个系统却不具备预测自身行动后果的能力。这是极其基础的。

当我们在世界上行动时,我们具备这种能力。所以这就是世界模型。它仅仅是预测你自己行动后果的能力。如果你拥有这种能力,你就可以规划一系列行动来完成一项任务,实现一个目标。你通过规划、推理,通过搜索和优化的过程来做到这一点。你不是通过自回归地预测一个接一个的动作来做这件事的。你是通过搜索一系列能够完成你设定任务的动作来实现的。

这套蓝图与LLM目前能做的事情截然不同。LLM不具备预测其行动后果的能力,它们也不具备任何规划能力,因为它们的推理方式仅仅是预测下一个标记(token)。这不是通过搜索来实现的。

我们对世界的心智模型是在一个抽象的表征层面上进行预测的。

预测像素注定是一场败局

主持人:当您在研发这种架构时,它在很大程度上是受到了人类大脑的启发吗?

杨立昆:至少受到了认知科学的启发。心理学家所说的“系统2”(System 2),即这种深思熟虑、反思性行为的理念,是指你确实会想象并预测你行动的后果,然后据此进行规划。

大约五年前,我顿悟了,我意识到所有成功学习图像和视频表征的架构都是非生成式的架构,而所有生成式的架构基本上都失败了。

比如VAE(变分自编码器),或者更广泛的自编码器。如果你训练一个VAE来学习图像的表征,你会得到一些东西,但真的没那么好。掩码自编码器(MAE)也是如此。FAIR曾经有一个关于这个的巨大项目,就叫MAE。结果非常令人失望。耗费了大量的计算资源,却没有得到真正出色、令人满意的结果。

与此同时,一些参与MAE项目的人正在研究使用非生成式架构、联合嵌入架构的其他技术。拿一张图片,以某种方式破坏它,让这两张图片通过编码器,然后试图用一个预测器,从被破坏图片的表征中去预测原始图片的表征。这就是JEPA。

JEPA的意思是联合嵌入预测架构。事实证明,这些技术在表征图像和视频方面,比预测像素要有效得多。不仅是我,很多人都恍然大悟:这才是正确的道路,而预测像素注定是一场败局。

主持人:一些大模型公司发布了各种机器人演示,看起来越来越令人惊叹。您认为在对比这些架构和方法方面,我们今天处于什么位置?

杨立昆:确实有真正的进展,但它们是用大量数据训练出来的,主要是通过模仿学习训练出来的。这种方法的问题在于,你需要大量的数据来通过模仿训练这些系统,这变得非常昂贵。而且它有点脆弱。

基于世界模型的系统所能达到的泛化程度要大得多,它能覆盖更广泛的任务,且所需训练数据比使用模仿学习和微调训练的系统要少。为什么一个17岁的孩子能在十几或二十个小时内学会开车?我们拥有数百万小时人类驾驶汽车的训练数据,却依然没有实现L5级别的自动驾驶汽车。显然,即便是对于自动驾驶这项任务,模仿学习也是行不通的。

主持人:我相信您和团队正急切地努力获取早期的证明点。在接下来的几年里,JEPA模型会发展到什么程度?

杨立昆:五年吧,基本实现对世界的完全统治。这显然是个玩笑,但这是引用了林纳斯·托瓦兹(Linus Torvalds)的一句话。当人们问他“你做Linux的目标是什么?”时,他说,“完全统治世界。”而他实际上做到了。粗略地说,世界上几乎每台计算机都在运行Linux。

LLM仍然会有其一席之地,基本上是作为语言接口。但我们正在设计的是能够思考的系统。

在一年左右的时间里,我们将拥有一套通用的方法论,可以在非常广泛的模态上训练分层模型。我们将展示我们能够训练世界模型,也许是以动作为条件的世界模型,让我们能够针对许多不同的用例进行规划。其中一些将是机器人技术,一些将是各种类型的工业过程控制。这应该在一年到18个月内实现。

今天的OpenAI就是昨天的Sun Microsystems

主持人:转换话题到LLM这边,您提到了您在Tapestry上做的一些工作,可以谈谈这个。

杨立昆:这是我在过去三年左右形成的一个想法。如果你是世界上某个地方的人,假设在美国或中国之外,你有一个AI助手,而那个AI助手是在加州、北京、上海或深圳制造的,这对你来说并不好。你的说语言,这些系统可能并没有受过特别好的训练去处理。你的价值体系,绝对不代表构建这些模型的人的价值体系。

你需要的是一个平台,它基本上是一个开放的、免费的、类似LLM风格的基础模型,任何人都可以对其进行微调,以迎合说特定语言、拥有特定文化、特定价值体系的人群的兴趣。

Tapestry的国际贡献者将共同训练一个全球模型,该模型基本上将构成全人类知识和文化的宝库。但贡献者提供的是数据和计算资源,同时他们将保留对自身数据的控制权。

我认为有一种自然的力量在推动这件事发生。这就像是Linux发生的事情。回想一下1996年互联网基础设施的巨头是谁。Sun Microsystems、惠普、戴尔。Sun Microsystems向你推销他们的专有硬件和Solaris系统。所有这一切都被Linux彻底抹平了。整个互联网都运行在Linux上。

所以今天的OpenAI、Anthropic等,就是昨天的Sun Microsystems和HP-UX。

主持人:LLM需要做到什么才能让您改变看法?

杨立昆:一个零样本(zero-shot)的具身智能系统。你有一个智能体系统,给它一个新问题。它没有受过解决那个特定问题的训练,它能完成这个它从未被训练去解决的任务吗?除非这个系统有能力预测其行动后果,然后利用这一点进行规划,否则它无法做到。而你不可能用一个LLM来做到这一点。

LLM总是可以逃脱。你的训练误差和测试误差之间总会存在差距。总会有一个提示词让系统做出极其愚蠢的事情。

我没有改变看法,是他们改变了看法

主持人:您和另外两位学者分享了图灵奖,而我感觉他们似乎对LLM的力量、潜在威胁或长期安全风险要确信得多。您的观点是从什么时候开始出现分歧的?

杨立昆:在2023年。我没有改变看法。是他们改变了看法。基本上是因为GPT-4。杰夫(Geoff Hinton)基本上没有接触过那些东西,而在2023年GPT-4问世时发现了它,并产生了一种顿悟。

我完全不相信这个说法。我认为目前的LLM并没有那么聪明。而且在达到类人智能之前,可能还需要几个概念上的突破。

约书亚(Yoshua Bengio)也有类似的情况。我认为他们俩都担心的是社会和政治系统确保AI的利益最大化的能力。这不是AI接管世界的末日论调。它更多的是关于糟糕的使用者,这确实是一种危险,但我并不认为它像某些人声称的那样具有末日色彩。

我认为LLM本质上是不安全的。我认为它们无法变得可靠和安全。它们无法变得可靠,因为你无法阻止它们产生幻觉。如果你给它们一个提示词,它们就会完成与该提示词对应的任务,但前提是它们的训练已经条件化它们去实际执行正确的任务。但是没有硬性约束能迫使它们完成这项任务。

我一直提倡的是目标驱动的AI(Objective-driven AI)。基本上,你给一个AI系统设定一个目标。系统通过优化寻找一系列能够完成这项任务、根据其模型最小化该成本的行动。你可以添加到那个系统中的,不仅仅是保证任务完成的成本函数,你还可以添加安全约束。系统在构造上无法违反这些东西。

获得突破性研究的最好方法,就是别去碍事

主持人:当您回首在Meta管理FAIR的时光时,您认为做得最正确和最错误的事情是什么?

杨立昆:我们做对的事情是建立了一个顶尖的研究实验室,产出了大量的基础方法、科学和工具,比如PyTorch。我认为还有一种开放和遵循科学过程的文化。

Meta在把研究成果转化为产品方面其实做得相当不错,但远非完美。这部分是组织架构的问题。你需要一个相当贴近研究、但不完全是产品组织的机构,来接力将技术推得更远。我们在Facebook和Meta曾经一度拥有这样的机制,但后来我们失去了它。

在2023年,生成式AI部门(GenAI)成立了。但随后它承受了太大的短期压力,以至于GenAI组织根本没有时间与FAIR沟通。GenAI没有在LLM方面处于最前沿并进行创新,而是不得不专注于短期目标。

Llama 1是2022年FAIR内部的一个小项目。2023年初,GenAI成立了。做Llama的人基本上被转移到了GenAI。随后一群人意识到“我可以去创业”,这就是Mistral的起源。

事实上,我对Llama没有任何技术上的贡献。我对Llama的唯一贡献,就是力排众议主张开源Llama 2。内部一场激烈的辩论,我真的极力推动并主张——安全风险基本上被夸大了,我们将通过开源Llama 2来启动AI行业。

获得突破性研究的最好方法——就像我们在FAIR早期所获得的那样——就是你雇佣最优秀的人,这些人有敏锐的嗅觉,知道该研究什么。你给他们成功的资源,然后你别去碍事。

如果你在读博士,别去研究LLM。毫无意义。你做不出什么贡献。

LLM是自监督学习极其成功的一个盲目案例

主持人:在过去的一年里,有一件让您改变看法的事情是什么?

杨立昆:整个关于自监督学习的理念。直到2003年左右,整个无监督预训练的理念给了我们一些证据,证明这整套技术是行得通的。

我试图将此应用于视频。让我惊讶的是,它取得了令人难以置信的成功,但不是在视频领域,而是在语言领域。LLM基本上就是自监督学习极其成功的一个盲目案例。

LLM之所以奏效,是因为当你有一系列离散的符号时,进行预测是很容易的。但如果面对的是真实世界,你不能使用生成式模型。所以现在你必须训练一个系统,它学习一种表征,并在表征空间中进行预测。这带来了一个大问题:你如何防止坍塌(collapse)?

如果你想读一篇论文,去读我们最近发表的《L-World Model》。它描述了一种显式的正则化器来防止这种坍塌,我认为超级有前景。

今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(0)
暂无评论


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

电话: (02) 8999 8797

联系邮箱: [email protected] 商业合作: [email protected]网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:[email protected]

友情链接: 华人找房 到家 今日支付Umall今日优选