4月24日,Meta(原Facebook)首席技术官Andrew Bosworth(安德鲁·博斯沃思)接受了a16z(风险投资公司)的访谈。本次对话围绕未来5~10年内容消费方式的演变、AI对应用模型与交互范式的颠覆以及对产品、市场的深远影响展开。
Andrew Bosworth认为,AI可能彻底改变以App为中心的交互模式,转向以用户意图为核心、由AI协调服务的模式。
以下是本次对话实录。

01 未来十年内容消费将超越手机,AR眼镜是关键方向
主持人提问:未来5~10年,我们的内容消费方式将如何演变?
Andrew Bosworth:展望未来10年,我坚信,我们将拥有远超拿出手机这一单一方式的途径来获取内容。我认为AR眼镜显然代表了一种切实可行的可能性。我也希望能为真正引人入胜的沉浸式体验找到更好的解决方案。
例如,我想和父亲一起看比赛,并希望能有身临其境般坐在场边的感觉。当然,可以亲自去现场买高价票,但有没有更好的替代方案?我相信是有的。对于未来10年的展望,我对所有这些替代性的内容呈现媒介都非常看好。
5年的时间跨度则更为复杂。我相信5年后市面上会出现不错的眼镜—包括智能眼镜、AI眼镜和显示眼镜。其中一些将极其高端,性能卓越;另一些则会非常小巧,也许显示分辨率不高,但它们几乎可以随时随地使用,就戴在你的脸上。我不会用它们来处理复杂工作,但在活动间隙用来获取一些简单的内容,它们可能会非常有效。
我们正目睹的,正如大家可能预料到的,是一个开端。这个谱系的一端是超级高端但可能非常昂贵的体验,这些体验并不会普及所有人;另一端则是一系列更广泛可用的体验,但其功能还不足以取代我们今天使用的设备。
我们希望,越来越多的人能够获得那些目前用其他任何方式都无法实现的真正独特的体验。这就需要我们去探索MR(混合现实)和VR(虚拟现实)的潜力。
02 当前的AI革命是广泛且真实的机遇
主持人提问:纵观您的职业生涯,您非常擅长将重大技术变革融合成新的产品体验,例如将技术结合社交、移动和“老派AI”的News Feed(动态信息流)。如何将这种融合技术趋势、创造突破性产品的经验,应用于当前以AI为代表的技术浪潮?
Andrew Bosworth:关于这一点,我想谈两个方面。
首先,我认为如果说我有什么是特别擅长的,那就是全身心投入去理解核心问题:人们到底想完成什么?他们想做什么?当你从这个角度出发时,你自然会去选用任何有助于实现目标的工具。这种方法能让你坦诚地评估现有的工具,并敏锐地识别新兴趋势。
你越是只关注技术本身,就越有可能陷入某一个特定的技术浪潮里。之后你或许会不愿承认这个浪潮已经过去,并迟迟不肯拥抱下一个浪潮。那样你就是在为了技术而技术,而不是为了解决产品问题。
但如果你着眼于人们生活中面临的那些基本问题,你就能保持务实。我相信我们都经历过这样一个阶段:很多人期盼着某个新浪潮的到来,因为那会对他们有利。然而,那些潜在的浪潮并没有解决普通大众的实际问题。
我们现在都对这场AI革命如此兴奋的原因在于,它让人感觉实实在在,它正在解决真实的问题。虽然它不能解决所有问题,还会带来新问题,但这没关系。它感觉就像我们掌握了一种强大的、真实的、全新的能力,它的非凡之处在于其应用的广泛性。尽管它目前在事实准确性方面存在一些值得注意的缺点,当然也面临算力、成本和推理方面的挑战,但这类问题是可以解决的。
此外,它的应用领域极其广泛,这很不寻常。在我的职业生涯中,以往的技术突破几乎总是局限于特定领域。就好比某个特定流程会变快,或某个特定东西会变便宜。而当前的这次变革给人的感觉更像是:“哇,一切都会变得更好。”我接触的每一种交互界面,尝试解决的每一个应用领域,都将得益于这项新技术而变得更加简单。这真的相当少见。
Mark(马克·扎克伯格)和我一直相信这场AI革命终将到来,只是我们曾预想它需要更长时间,当时认为可能还需要10年。我们原以为会更早发生的是计算界面的革命。大约10年前,也就是2015年左右,我们就切实感觉到,尽管手机这一形态已经非常了不起,但其发展已基本饱和,感觉它差不多就到此为止了。
不过手机仍然是我们迄今为止用过的最伟大的计算设备,下一步交互方式必须更加自然,无论是信息如何进入我们的身体,还是我们如何向机器表达意图。那时你将不再需要触摸屏,也不再需要键盘。
一旦你认识到这些是核心问题,答案就变得清晰:设备需要佩戴在脸上,因为需要通过眼睛和耳朵将信息从机器传递给用户。并且你需要神经接口这样的技术,让用户在没有键盘或鼠标,甚至没有触摸屏的情况下,也能操控机器、表达意图。
因此,面部佩戴设备和神经接口正是我们在过去10年里一直追求的一个极其清晰的愿景。但我们这一代工程师确实成长于一个系统固化的时代。应用程序模型是固定的,交互设计也是,我们经历了从鼠标到触摸屏的转变,但这仍属于直接操控界面,本质上是20世纪60年代就已开创的概念,我们并未从根本上改变这些交互模式。而改变这些模式是有代价的,因为我们整个社会已经习惯了通过这些特定的工具来与数字内容或数字工具进行交互。
我们面临的挑战是,必须制造出这样的硬件,它可以实现所有这些强大的功能,同时还要外观漂亮、轻便,且价格合理。所有这些要求结合起来,是前所未有的。
我经常告诉团队,这还只是挑战的一半。另一半挑战是:造出来了用户该怎么用?我如何让这种新设备感觉自然?我现在用手机已经非常熟练了,它就像是我身体和意图的延伸,我们如何让下一代设备用起来更简单、更直观?
我们当时正面临这些挑战。幸运的是,AI在大约两年前出现了,并且比我们预期的更早地成熟起来。它为我们简化交互提供了一个巨大的机会,因为我们今天拥有的AI在理解用户意图方面能力要强得多。即使我给出一个模糊的指令,它也能利用其掌握的信息语料库进行处理,并产生具体的结果。
当然,要让AI真正胜任这项任务,还有大量工作要做,它目前还不能算是一个成熟的控制界面,我还不能完全依赖它来可靠地操作我的设备。我们需要完成很多事情,但好在我们清楚目标是什么。
实际上我们现在处于一个令人兴奋的阶段。之前我们觉得,硬件方面有一座大山要爬,交互设计方面也有一座大山要爬,但我们相信能做到。而现在我们有了一股强大的顺风,至少在交互设计上,我们有可能拥有这种更智能的AI Agent(智能体)。它不仅能让你自然地与之对话并获得结果,还能结合上下文,了解你看到了什么、听到了什么、周围发生了什么,并基于这些信息进行智能推理。

03 展现了超越手机的可能性,AI融合是关键
主持人提问:请介绍Reality Labs〔Meta旗下专注于虚拟现实(VR)、增强现实(AR)、人工智能(AI)和下一代人机交互技术的研发部门,旨在构建“元宇宙”(Metaverse)的基础技术〕的产品线(Quest头戴设备、智能眼镜以及像Orion这样的前沿原型设备),谈谈这些产品线的演进方向,您认为它们的市场定位是什么,未来它们是会趋于融合还是保持独立发展?
Andrew Bosworth:当我们启动Ray-Ban Meta项目时,最初的定位是智能眼镜。事实上,产品已经完全开发完毕,距离量产只有6个月时,Llama 3(Meta于2024年推出的新一代开源大语言模型)问世了。团队成员立刻反应:“不行,我们必须把AI加进去。”
于是我们做了调整,所以现在它们是AI眼镜了。它们并非生来就是AI眼镜,但产品的形态正好合适,我们也能处理所需的算力,我们已经具备了这种能力。
当你体验Orion,或者说功能完整的AR眼镜时,你就能想象出一个后手机时代的情景。
你会想:“如果这东西的外形足够吸引人,足够轻便,电池续航也足够支撑全天佩戴,那我就真的可以不再依赖手机了,我需要的所有功能和信息就都在这眼镜里了。”
当你将AR眼镜的潜力与我们所了解的AI技术能力结合起来时—你体验过我们那个早餐场景演示吗?你走到摆放着一堆早餐食材的地方,看着它们,然后说:“嘿Meta,看看这些食材,能做些什么食谱?”
我们思考Orion这个项目时,最初构思并未包含AI组件,当时主要聚焦于直接操纵。所以它很大程度上是模仿了我们都非常熟悉的手机应用模型。我认为确实存在这样的应用场景,你肯定会想要打电话、处理邮件、发短信,还想要玩游戏。
现在让我们兴奋的是,将所有这些功能整合起来,再叠加一层交互式助手的能力,这个助手不仅能真正理解你设备上的动态和收到的邮件,还能理解你周围的物理世界正在发生什么,并且能够把你当下的需求和正在发生的事情联系起来。
于是就产生了这样的想法:“如果整个应用模型被彻底颠覆了会怎样?”如果不再是“嘿,我现在想打开Instagram(照片墙)”,而是:“嘿,设备注意到你在会议间隙有点空闲和无聊,要不要看看你最喜欢的篮球队的最新精彩集锦?”诸如此类的事情都将成为可能。
话虽如此,但硬件问题是真实且严峻的,成本问题也是如此。手机如今是我们生活中不可思议的核心设备,它几乎无处不在。
这将是一个漫长的过程,这就是为什么我说,对我而言10年的远景要清晰得多,我认为这些技术将变得可用、被广泛接受,且越来越多地被采用。但5年的前景就比较难预测了,因为这些东西即使非常出色,要在5年内撼动手机的主导地位,这简直难以想象。
所以我才说,Orion是我第一次觉得,也许有可能超越手机。就像第一次戴上Orion时,我就想:好吧,这事或许能成。
04 AI有望颠覆以应用为中心的交互模式,转向用户意图驱动
主持人提问:从手机主导到新设备形态的过渡期会是怎样的?硬件和市场接受度达到后,新设备会选择与手机绑定,还是坚持独立发展?此外,AI驱动的新应用模型将如何建立起相应的开发者生态系统?这种由AI引发的颠覆性变革,最有可能首先在哪些领域显现出来?
Andrew Bosworth:我认为,手机拥有巨大的优势和劣势。
巨大的优势在于,手机已经成为我们生活的中心,它已经拥有庞大的开发者生态系统,所以它是一个极好的核心设备。
劣势在于,我们发现当应用程序不是通过触摸屏控制时,它们需要变得不同,这并不算什么新发现。很多公司在移动互联网早期都失败了,包括我们自己,当时仅仅是把网站内容直接搬到手机上,觉得“把网页放上去就行了”。但它不是为手机原生设计的,我指的是从交互设计到实际视觉设计,再到布局和使用感受,因为我们没有做手机原生的东西,所以即使我们拥有网络史上最受欢迎的产品之一,也依旧失败了。
我认为拥有开发者是真正的价值所在,拥有所有这些应用功能也是真正的价值所在。可一旦你把它们重新投射到空间中,用这样的手势而非触摸屏来操作时,精确度会大大降低。
它无法响应语音命令,因为没有相应的工具,没有为此进行设计整合。所以,现在拥有一个手机平台感觉就像是我在硬件方面有了一个巨大的基础可以利用,但同时在软件方面,我也背负了一个沉重的负担。
所以,我们不排斥这类合作,一旦硬件发展得更成熟些,合作伙伴的反应会很有趣。而且,我希望他们能继续支持那些买这些手机的用户,让他们能够连接任何他们想用的硬件,并充分利用其全部功能。
关于应用模型和生态系统,我最大的疑问是,整个应用模型本身是否会改变。因为我们之前为这些设备设想的是一个类似手机的应用模型。当然,交互设计、输入和控制方案会非常不同,这需要开发者投入额外的精力。
但我现在在想,未来几年AI的发展会不会彻底颠覆应用模型?以至于不再是像现在这样有点奇怪—当我想要听音乐时,需要在脑子里把它翻译成“我必须打开Spotify或Tidal”。我首先想到的是“我要用哪个提供商?”,这根本不是我想要的,我想要的只是播放音乐。
我只想能够直接对AI说:“帮我放这首歌。”然后AI应该知道:“哦,你已经在使用这项服务了,那我们就用它。”或者“这两项服务你都可以用,但这一家的音质更好。”再或者“这一家的延迟更低。”诸如此类。或者它会说:“你想听的歌在这些服务上都没有,要不要注册另一项确实有这首歌的服务?”
我不想再负责去协调我该打开哪个应用来完成某件事。我们之所以一直这样做,是因为在整个数字计算历史上,事情就是这样运作的。你依赖的是一个基于应用程序的模型,这就是当时的系统。
所以我好奇AI会在多大程度上颠覆这一切。而且这不仅仅是关于可穿戴设备,不是关于任何特定形态。这就像,即使是在手机层面,如果你今天要从头开始打造一款手机,你会像过去那样构建一个应用商店吗?还是你会说:“作为消费者,请表达你的意图。说出你想完成什么,然后让我们系统看看能提供什么。”让系统看看能为你生成什么。
我认为,如果今天从零开始,你可能不会构建这样一个以应用为中心的世界。在这个世界里,我作为消费者想要解决一个问题时,却必须先决定要用哪个提供商来解决。
这太有意思了。我认为这取决于如今的技术能力,以及我们能预见到的编排能力。在知识获取方面,现在或许已经具备了这种能力,但在编排方面可能还有一段路要走。当然,你还需要建立开发者生态系统,让他们在这个平台上进行开发。
这极其困难,这正是我认为最难的部分。我们在代理推理和相关能力方面越强,就越能依赖AI在我缺席时处理事务。当然,一开始会是知识工作,这没问题。可一旦有大量消费者开始使用这个流程,你就会发现他们会遇到很多死胡同。
他们会问AI:“ 嘿,能帮我做这件事吗?”AI会回答:“抱歉,我做不到。”这就是你带给开发者的金矿,你可以告诉他们:“嘿,每天有10万人尝试……”尝试用你的应用来解决这个问题,他们正试图使用你的应用。他们自己可能没意识到,但他们确实想用你的应用。
这就是查询流,这就是用户输入的需求。我们现在只能告诉他们做不到,但如果你们构建这些接口,那么现在就有10万人迫切需要某项功能来使用你的服务。而且我们的AI完全可以回复说:“嘿,这项服务是需要付费的。有位开发者可以帮你做这个,但你需要付费。”
我不只是在谈论应用程序,它可能是一个水管工服务,就像这里存在某种形式的市场。我认为这会随着时间推移而出现,我预见的发展路径是这样的。我并不认为会是某人闭门造车,然后搞出一个应用平台。
可以预见的是,会出现一个人们使用AI来做事形成的查询流,而AI会在某些特定领域反复失败,因为这些功能目前被某种应用壁垒阻隔,没有相应的接口或途径,或者说还没有为这种特定的消费机制构建原生的功能,(AI与现有应用之间)还没有桥梁被建立起来。
每个人都想去建这座桥,他们会说:“不,我们会让它能操纵像素,能操纵……”这没问题,AI确实能做到。我不是说AI不能跨越那些界限,但我认为随着时间的推移,如果AI成为人类与软件交互的主要界面,情况就会不同于现在这样从众多应用程序中挑选使用。
这是一个非常吸引人的最终状态,单单作为一名消费者来看也是如此。这件事非常复杂,我认为它在AI内部为各种功能创造了这些非常激动人心的市场。它让很多公司的品牌变得模糊不清,这对整整一代的品牌来说将非常艰难。
比如我根本不在乎音乐是用这两个服务商中的哪一个播放,这对于那些投入了大量资源、非常希望我在乎的音乐服务公司来说,是很难接受的。他们希望我(对用哪个服务)有更强烈的看法,希望我(对他们的品牌)产生某种依恋或用户黏性。但我不想产生这种依恋。
但是在那个“这是一个应用商店,这两个应用在争夺我的注意力”的世界里,他们建立起来的品牌是一笔极其宝贵的资产。而在我只关心歌曲能不能播放、音质好不好的世界里,重要的就是另一套优先级了。
我认为这总体上是有益的,因为现在真正重要的是AI在被要求的任务上的表现,也就是实际的产品体验,以及价值、价格,还有性价比,这些都变得非常重要。我想很多公司不会喜欢这一点,将其抽象掉实际上就是在说,把利润池给抽掉了。
这也给我们施加了更大的压力,需要去信任AI本身或者AI的分发者。因此,只要我还在不同的、各自提供AI的公司之间进行选择,一个关键问题就是我能在多大程度上信任他们不会在背后被收买或进行付费推广,以至于他们并非给我提供最佳体验或最佳运行性价比,而是给我那个能让他们赚最多钱的选择。当然,这就是如今搜索的体验。所以这是一个非常不同的世界。
关于最先颠覆的领域,它可能发生在搜索查询密集的垂直领域。实际上,我认为我们确实有一个先例可循,那就是在互联网时代,当谷歌成为主导搜索引擎的时候。
互联网早期阶段,网络生态很大程度上是基于索引模式,就像雅虎那样,重点在于链接,谁能让主要的流量来源链接到你,谁就掌握了游戏的玩法。之后谷歌迅速崛起占据了主导地位(这发生得非常快,大概就几年时间),那时唯一重要的就是SEO(搜索引擎优化),唯一重要的就是你在查询流中的位置。查询流决定了哪些业务能够兴起并获得成功,因为那些最频繁的查询,对应的就是那些最先被满足需求并由此发展起来的业务。
我认为SEO现在已经发展到了一个有点让人扫兴的地步,它现在反而让事情变得更糟了,每个人都变得太擅长这个游戏了。这就像一场游戏,每个人都变得太精通了,尤其现在有了AI之后。所以我实际上觉得,我们有点经历过了这样一个令人难以置信的竞争扁平化曲线,现在它又开始在利用AI操纵SEO等方面有所抬头。尤其是还有付费排名,现在它太主流了。
这很可能就是AI领域未来发展的一个前车之鉴。我认为会有一个相当不错的黄金时代,在这个时代,查询流将决定哪些业务会率先发展起来,因为那些查询代表了大量对现有解决方案不满意的用户需求。否则他们就不会去问AI这些问题。
而产品提供商和开发者会紧随其后,专门开发产品来解决这些问题。然后它会迅速切入一个真正有价值的领域,我们会取得很大进展。一旦在某个垂直领域发生转折,我们就能非常迅速地在为消费者提供更好解决方案方面取得巨大进步。而一旦达到稳定状态,就会开始出现各种“钻空子”的行为。这就是我们要对抗的东西,而那就是衰退时代的开始,那将是对AI的真正考验。
05 Meta的AI开源策略
主持人提问:Meta在AI开源方面一直走在前列,请阐述你们在这方面的努力(如Llama)及背后的考量,以及您认为理想的AI模型市场结构是怎样的?此外,要实现您所描绘的未来愿景,当前面临哪些主要的障碍和风险(例如技术发明本身、用户的采纳意愿、开发者生态系统的建立、社会接受度和监管问题等)?在这些因素中,哪些进展可能是线性的、可预期的,哪些则是更具挑战性或不确定性的?
Andrew Bosworth:Llama来自FAIR,我们的基础AI研究小组。从一开始,FAIR就是一个开源的研究小组。这使我们能够吸引到那些杰出的研究人员,他们真正相信,我们跨越各个独立实验室的界限共同协作,会比各自为政取得更大的进步。
很明显,Transformer论文是由谷歌发表的,而自监督学习可以说是我们的贡献,每个人都在为这个知识库添砖加瓦。但当我们开源Llama的时候,当时所有的模型都是开源的,唯一不寻常的是其他所有模型随着时间推移都变成了闭源。在那之前,每次有人构建了一个有价值的模型,通常都会开源它,这样其他人就可以使用这个模型,看看它有多棒。当然,一些用于翻译之类的专用模型是保密的,但如果它是一个通用模型,当时的做法就是那样。
Llama 2对我们来说可能是一个关键的战略转折点。我一直持有并在内部极力推动的一个信念是,如果这些模型是开放的,我们将取得远超现在的进展。因为很多贡献并不会来自那些大型实验室,而是来自那些小型实验室。我们已经看到了DeepSeek的例子,所以我们坚信,通过集体努力,我们将取得最大的进步。
我相信这些AI大模型终将成为大宗商品,而在此趋势下,你总是希望将你的互补品商品化(即降低互补品的价格和门槛,来提升自己核心产品的竞争力)。
我们在战略上处于一个独特的位置:我们的产品因为AI而变得更好,这也是我们长期以来一直大力投资AI的原因。无论是在动态信息流(Feed)或Reels(Facebook旗下Instagram推出的短视频应用)中看到的推荐系统,还是一些简单的事情,比如当你想发送新消息时,应该把哪个朋友放在列表顶端—猜测你现在最想给谁发消息。
诸如此类的小事,一直到非常宏大、应用广泛的事情,比如一个完整的搜索界面,这是我们以前在WhatsApp里做不到的。而现在它成了一个非常受欢迎的功能入口,这一切对我们来说都是可能的。但并非其他任何人拥有了这项人工智能技术就能构建出我们的产品。这种不对称性是对我们有利的。
因此,将互补品商品化是明智的商业决策。同时,确保市面上有大量价格极具竞争力甚至近乎免费的模型,这既有助于整个行业、众多小型初创公司和学术实验室,也对我们自身有益。
作为应用程序提供商,我们是巨大的受益者。我们在这方面高度一致,这关乎商业模式与行业的契合。这既源于我们对这类研究应如何进行的基本信念,同时也与我们的商业模式完美契合,因此不存在冲突。社会进步与商业模式一致,一切都结合起来,朝着同一方向发展,这非常好。
我们面临的是真正的发明风险,也就是说,我们想要构建的东西,目前可能还没有能力去实现。但我们看到了一些希望的曙光,这表明它是可以做到的。这既是成本削减的任务,也是材料改进的任务,但它确实可以实现。
不过,发明风险依然存在。我认为,远大于发明风险的是采用风险:这项技术是否被社会所接受?人们是否愿意学习一种新的交互模式?就像我们小时候都学会了打字,现在的人几乎一出生手里就拿着手机。那么,人们是否愿意学习新的交互模式?这值得吗?
还有生态系统风险,甚至比采用风险更大:你造出了这个东西,但如果它只能处理电子邮件和Reels,那可能还不够。人们是否会将与现代社会互动所必需的软件引入这个设备?这些都是巨大的风险。
我想说,我们在硬件和可接受性方面取得的进展令人鼓舞。我们相信能够做到这些,这在以前并非必然。通过Ray-Ban Meta眼镜,我们感觉可以克服相关问题。在可接受性方面,人们会接受我使用这项技术吗?这里面存在着监管挑战。
我现在拥有一个永远在线、赋予我超人感知能力的设备。我的视力、听力、记忆力都更好了。我的记性不好,那么我能用工具来辅助记忆吗?这里就牵涉到了非常微妙的监管、隐私、社会可接受性问题,这些问题深植其中,各自都极其复杂,很容易让整个项目脱轨并且延缓进展。
我们行业内有时会陷入《梦幻之地》式的思维:你若建成,顾客自会前来。但事实并非如此,很多事情都必须顺利到位才行,这就是风险所在。伟大的技术可能因为一些愚蠢的原因而长时间停滞不前。
我对发明风险相当乐观,可接受性风险看起来比以往要好,但仍存在许多不确定因素。我之前可能会说生态系统风险是最大的,但现在人工智能成为了我在这方面潜在的“银弹”(silver bullet,象征唯一能彻底解决难题的终极武器)。
如果人工智能成为主要的交互界面,那么生态系统问题在某种程度上就迎刃而解了。此外,即使撇开Orion不谈,单单Ray-Ban Metas就收到了非常积极的市场反响,很多公司想和我们进行合作。
这就是下一件大事,(这一技术变革)它必须发生,而且不会自动发生,我们可以成为推动它实现的人。
科技界有很多人会说:“AR终将成为现实。”但事情根本不是这样自然发生的。AR就是一个典型的例子,它绝对不会自动发生,你必须投入资金和时间去做,必须有人站出来做这件事。所以我要说的一点是,我们和其他人的区别在于:我们从内心深处相信这件事的价值。这可能是我一生中有机会从事的最重要的工作。
评论
-
最新最热
行业资讯 -
订阅栏目
效率阅读 -
音频新闻
通勤最爱




