作者 | Arvind Narayanan &Sayash Kapoor
编译|岳扬
AI 企业正集体计划在硬件和数据中心上投入高达万亿美元[1]的资金,然而迄今为止,这些投入所带来的成果却相对较少。这一现象也引发了许多人的担忧,他们怀疑 GenAI 是否只是一场泡沫[2]。我们不会对未来的事情做出任何预测,但我们认为,对于事情当初是如何走到这一步的,我们已经有了一个清晰的认识。
本文将探讨 AI 企业所犯的那些错误,以及他们是如何努力纠正这些错误的。接下来我们将讨论人工智能公司为了使 GenAI 在商业上取得足够的成功,从而证明之前在硬件和数据中心上的巨额投资是合理的,它们还需要跨越的五大障碍。
01 产品与市场的契合点
ChatGPT 一经推出,便被用户们发掘出数种意想不到的用途,这让 AI 开发者们激动不已。然而,他们并未准确把握市场脉搏, 忽视了概念验证(POC)与可靠产品之间存在的巨大鸿沟。 这种市场误判导致出现了两种截然相反的大语言模型(LLMs)商业化方法,但两者都存在缺陷。
OpenAI 和 Anthropic 专注于模型的构建,对产品开发则显得不够重视。比如,OpenAI 花了 6 个月的时间才发布了 ChatGPT iOS App,而 Android App 更是又晚了 8 个月才面市!
与此同时,谷歌和微软在竞争中慌不择路,将 AI 技术匆忙植入各种产品,却未深入思考哪些产品真正需要 AI 的加持,以及 AI 应该如何与这些产品整合。
这两家公司都忘记了 “打造用户所需产品” 这一核心原则。 大语言模型的通用性让开发者误以为,他们可以不必寻找产品与市场的契合点,似乎只要让模型执行某个任务,就能取代之前精心设计的产品或功能。
OpenAI 和 Anthropic 采取的自主开发(DIY)方法导致出现了一个问题:早期使用大语言模型(LLMs)的用户群体中,不能代表普遍的大模型使用者。因为这些人更愿意投入精力去研究如何利用这些新技术去实现自己的目的,而普通用户则更倾向于使用简单易用的产品。这种情况使得该技术的公众形象产生了负面印象。<sup>1</sup>
与此同时, 微软和谷歌那种“强行植入 AI ”的做法,虽然偶尔能带来便利,但更多时候却让用户感到不胜其烦。 此外,由于测试工作没做到位,还出现了许多本可避免的错误,比如微软早期的 Sydney[3] 聊天机器人和谷歌的 Gemini[4] 图像生成器。这些情况同样引发了公众的不满和抵触。
不过,这些公司现在正在调整运营策略。 OpenAI 似乎正在从专注于基础研究和创新探索的领域转型,更加倾向于开发和推动具体的产品与服务走向市场化。如果撇开 OpenAI 董事会内部的戏剧性事件不谈,其核心转变是从追求创新神迹(creating gods)到专注于产品开发(building products)。Anthropic 则吸纳了许多之前在 OpenAI 工作、更关注通用人工智能(AGI)研究的科研人员和开发人员,他们在 OpenAI 感到格格不入。尽管如此,Anthropic 也认识到了打造产品的必要性。
谷歌和微软在这方面动作较慢,但我们推测苹果可能会迫使它们做出改变。去年,苹果[5]在 AI 领域似乎还处于落后状态,但事后来看,苹果在其全球开发者大会(WWDC)上所展示的那种谨慎而深思熟虑的 AI 发展策略,似乎更能够赢得用户的认可<sup>2</sup>。谷歌在其即将推出的新款 Pixel 手机[6]和新版本的 Android 操作系统中,对于如何整合 AI 似乎进行了更多的思考,比起在搜索功能上应用 AI 要用心得多,不过它们还未上市,我们不妨拭目以待。
再来看看 Meta,其旨在利用人工智能在其依赖广告收益的社交媒体平台上创造内容,并增强用户的互动参与度。在一个充斥着 AIGC(人工智能生成内容,Artificial Intelligence Generated Content)的世界,其社会影响无疑是复杂且具有两面性的[7]。然而,从商业策略的角度来看,这一方针无疑是明智的。
02 基于 AI 的面向消费者型产品(consumer AI)需跨越的五大障碍
为了打造吸引人的基于 AI 的面向消费者型产品,开发人员需跨越大语言模型(LLMs)的五大障碍。<sup>3</sup>
2.1 产品成本
在众多应用场景中,模型的能力并非限制因素,成本才是。 即便是简单的聊天应用,成本也限制了 chatbot 能够回溯的对话历史长度 —— 随着对话时间的延长,对整个对话历史进行处理的成本会迅速飙升,变得令人难以承受。
大模型的成本已经显著下降 —— 过去 18 个月里,同等能力的模型成本降低了超过 100 倍。 <sup>4</sup>因此,有企业宣称 LLMs 已达到或即将达到“便宜到微不足道”[8]的水平。不过,等他们免费开放 API 时,我们才会真正相信这一点。
我们认为成本问题仍将是一个关注点,因为在许多大模型应用中,成本的降低直接意味着准确性的提升。 这是因为 LLMs 存在随机性,多次重复尝试完成任务(十次、千次甚至百万次)是一种提高成功率的有效方法。因此,在相同预算的情况下,模型越便宜,我们就能进行更多次尝试。我们在近期一篇关于 AI Agents 的论文[9]中对此进行了量化分析。此后,也有多篇论文[10][11]提出了类似的观点。
尽管如此,我们还是有理由相信,在不久之后我们将进入一个新阶段,届时在多数应用场景中,成本的优化(cost optimization)将不再是一个重要问题。
2.2 产品可靠性
产品的能力和可靠性在我们看来是两个相对独立的概念。如果一个 AI 系统有 90% 的概率正确完成一项任务,我们可以说它具备完成该任务的能力,但却不能保证稳定可靠地完成。那些让我们达到 90% 正确率的技术,却未必能帮助我们达到 100%。
对于基于统计学习的系统来说,追求完美的准确性本身就是一项艰巨的任务。回想机器学习在广告精准定向、欺诈检测,或是近期在天气预报领域的成功案例,完美的准确性并非目标 —— 只要系统的表现优于现有技术水平,它就是有价值的。即便在医疗诊断和其它医疗健康领域,我们也能接受一定程度的误差[12]。
然而,当 AI 被应用于面向消费者型产品时,用户期望它能像以前的传统软件一样运行,即需要它们能够稳定无误地工作。如果一款 AI travel agent 只有 90% 的几率能正确预订假期目的地,那它就不会成功。正如我们之前写过的文章[13],可靠性不足是近期一些基于 AI 的小工具失败的原因之一。
AI 开发者们对此问题的认识相对较为迟缓,原因在于我们这些专家习惯于将 AI 看成与传统软件有本质区别的东西。比如,我们俩在日常工作中对聊天机器人和 AI Agents 的使用频率非常高,对于这些工具可能出现的幻觉和不可靠之处,我们几乎能够自动地进行规避。 去年,AI 开发者们或许还寄希望于非专业用户能够学会适应 AI,但现在逐渐清楚的是,企业需要调整 AI 以符合用户的期望,让 AI 像传统软件一样运行。
提高 AI 的可靠性是我们普林斯顿团队的研究重点。目前,能否利用随机性组件(LLMs)构建出确定性系统,还是一个尚未解答的问题。有些公司宣称已经解决了可靠性问题 —— 比如,一些法律科技公司宣传他们的系统“不会产生幻觉”。但事实证明,这些说法为时尚早[14]。
2.3 隐私问题
在机器学习的发展历程来看,它通常依赖于包含敏感信息的数据源(data sources),比如利用历史浏览记录进行广告定向推送或使用医疗记录发展医疗健康科技[15]。然而,LLMs 在这方面显得有些特立独行,因为它们主要是通过公共资源(如网页和书籍)来进行训练的。<sup>5</sup>
但随着 AI assistants 的普及,隐私问题再次成为焦点。为了打造实用的 AI assistants,企业需要利用用户的交互数据来训练系统。例如,如果想要 AI 在电子邮件这一使用场景表现优异,那么就必须在电子邮件数据上进行训练[16]。 不过,各大企业在隐私政策(privacy policies)上对此往往语焉不详,目前尚不清楚这种情况的实际影响范围。 <sup>6</sup>电子邮件、文档和屏幕截图等数据可能比聊天记录更为敏感。
此外,还有一种与推理而非训练有关的隐私问题。AI assistants 要想为我们提供便利,就必须能够访问我们的个人数据。例如,微软曾宣布要设计一项饱受争议的功能,该功能将每隔几秒钟对用户的电脑屏幕进行截图,以便其 CoPilot AI 能够对用户的行为进行记忆、学习。但这一举动引发了公众的强烈抗议,微软最终不得不放弃这一计划[17]。
我们在这里提醒大家,不要仅仅从技术层面理解隐私问题,比如说“数据永远不会离开设备”。Meredith Whittaker 指出[18],设备上的欺诈行为检测(fraud detection)可能会使持续监控变得常态化,而且所构建的这种基础设施有可能被不良分子恶意利用。尽管如此,技术创新[19]确实能够在一定程度上帮助我们保护隐私。
2.4 产品的安全问题
在产品安全方面,存在一系列相关的问题:例如 Gemini 的图像生成功能存在偏见[20]等 意外故障 ;例如声音克隆或 deepfakes 等 AI 的滥用 ;以及如提示词注入(prompt injection)等 黑客攻击 ,可能会泄露用户数据或以其他方式损害用户权益。
我们认为意外故障是可以修复的。至于大多数类型的滥用, 我们的观点是,无法创建[21]一个不会被滥用的模型,因此必须主要从下游进行防御 。当然,并非每个人都同意这种观点,因此很多公司将继续因为不可避免的滥用而不断受到负面新闻的影响,但这些公司似乎已经将这视为开展 AI 业务的一部分经营成本