编辑 | 言征
出品 | 技术栈(微信号:blog51cto)
不久前,OpenAI 和 Microsoft似乎是不可战胜的。然而,现在,他们的竞争对手正在迎头赶上。
巨头支持方面,Anthropic 的 Claude 模型一点都不弱,甚至隐隐有了超越ChatGPT的趋势。
前不久,Microsoft 支持的 GitHub 已将 Claude 添加到 Copilot,而Amazon一早就已将 Claude 添加到 Q Developer (Code Whispherer)中。
此外,Meta 的 Llama 现在在用户方面可与 ChatGPT 相媲美,是开源及其他领域家喻户晓的名字。
相比之下,OpenAI 早些发布的 o1反馈确是喜忧参半。就连 OpenAI 首席执行官Sam Altman都不得不谦虚地将该模型称为“用于推理的 GPT-2”,同时称其“存在严重缺陷”。
1.Anthropic优先考虑工程,OpenAI更关注用户
除了推理能力之外,OpenAI 似乎更关注语音功能,特别是迎合其最终用户。相比之下,Anthropic似乎优先考虑工程和 API 方面。OpenAI 最近推出了富有表现力的可控语音,用于语音转语音体验,并通过提示缓存降低成本。文本输入折扣 50%,音频输入折扣 80%。此举使高级实时 AI 更容易获得。
与此同时,Anthopric 还在尝试在 Claude 移动应用上为特定用户提供语音听写功能,最长可录制 10 分钟。
OpenAI 在 AI 编码方面也面临着来自 Anthropic 的日益激烈的竞争。该公司正在改进自己的工具来处理复杂的编码任务和自动化代码生成等操作,尽管Anthropic 最近推出的“计算机使用”功能使其具有优势。“AI 编码还不能完全取代工程师,需要'一些指导',”Anthropic 联合创始人Daniela Amodei分享道。她还指出,他们的 Claude 模式显著提高了生产力,有可能重塑招聘策略。
随着两家公司都在推动 AI 主导地位,OpenAI 即将发布的版本可能会影响市场,可能会对GitHub Copilot、Cursor和其他编码助手等产品构成挑战。
2.用户屏幕交互
Anthropic 通过专注于屏幕导航来增强用户与 AI 的交互。上周,该公司推出了使AI 能够控制计算机屏幕的功能,使其能够代理用户进行浏览网页或打字。
“计算机操作员”是一项实验性的公开测试版功能,通过该功能,Claude 3.5 Sonnet 现在可以以类似于人类用户的方式导航计算机界面。这意味着 AI 可以查看屏幕、移动光标、单击按钮和键入文本,从而允许它执行各种任务。
还有更多。Anthropic 还在 Claude 中推出了其分析工具。它允许用户通过运行 JavaScript 代码直接在平台中执行数据分析。凭借这一点,Anthropic 在 AI 用户体验领域取得了成功。
此功能在预览模式下也可用,使 Claude 能够处理复杂的任务,例如数据清理和 CSV(逗号分隔值)文件的详细分析。它旨在通过提供精确的洞察来帮助各个职能的团队,旨在帮助营销人员分析客户行为,并帮助财务团队创建仪表板。
上个月,Anthropic 向 iOS 和 Android 上的所有用户提供了 Claude Artifacts,使任何人都可以轻松创建应用程序,而无需编写任何代码。
Anthropic 无疑将人类与 AI 的交互方式提升到了一个新的水平。
“虽然 Anthropic 构建了一些仍然需要计算机作为界面的东西,但在未来,我们很可能会离开屏幕,使用一种新的设备或界面与 AI 代理进行交互。”
OpenAI 也没有放弃。在伦敦举行的 OpenAI DevDay 2024 上,该公司的开发人员体验主管Romain Huet展示了 o1 预览版演示,揭示了希望和挫折。
经过三次尝试后,Swift 地图应用程序编码停滞不前,但后来,一个演示 o1-mini 和 Cursor 的演示成功地控制了一架无人机,并完成了令人印象深刻的后空翻。
OpenAI 还在ChatGPT 桌面应用程序上发布了一项高级语音功能,不久前,它发布了一项功能,现在允许用户从ChatGPT 上之前对话中搜索内容。
此外,OpenAI 昨天推出了其搜索引擎。ChatGPT 搜索现在提供改进的网络搜索功能,以获得及时、准确的答案,将自然语言交互与体育、新闻、股票报价等中的最新数据相结合。
3.Masters Voice 功能
最近,OpenAI 为开发人员推出了实时API,使他们能够为其应用程序添加高级语音和自然语音转语音对话功能。此 API 使公司能够构建语音驱动的客户服务系统,这些系统可以处理复杂的任务,从预订旅行到通过软件指导用户。
OpenAI 肯定正在扼杀它。这个新 API 是ChatGPT 的视觉高级语音模式的扩展,在 API 更新前几天发布。它提供了六种不同的声音,以及流畅的音频输入和输出选项。
例如,用户现在可以通过展示冰箱的照片向 ChatGPT 询问食谱创意,或者通过分享问题本身的图片来获得数学问题的帮助。
此更新类似于Google 的对话式 AI 助手Gemini Live。它声称可以帮助其用户计划活动、寻求建议、讨论历史事件,甚至探索新的本地话题和想法。
毋庸置疑,OpenAI 的 API 更新与依赖多个模型进行语音转录和响应的传统方法形成鲜明对比。它使用 WebSocket 连接到 OpenAI 最新的 GPT-4o 模型,允许开发人员管理功能并根据用户请求做出响应。
健康公司Healthify Me是早期采用者之一,他们通过他们的 AI 教练 Ria 使用 API 进行实时营养指导。它使用OpenAI 的 GPT-4 Turbo和名为Whisper的语音机器学习模型。
目前,Realtime API 根据文本和音频令牌定价。音频输入的价格为每 100 万个代币 100 美元,输出的价格为每 100 万个代币 200 美元。OpenAI 还在 API 中构建了强大的安全功能,包括自动滥用检测和人工审核机制。
OpenAI 计划在未来扩展 API 的功能。它旨在支持其他形式,如视频和视觉输入。
与 Anthropic 的 Claude Sonnet 3.5 Artifacts 相反,OpenAI 最近推出了canvas。这是一个与 ChatGPT 一起编写和编码项目的新界面。
并不奇怪。OpenAI 用于 ChatGPT 的新画布界面在编码方面与 Anthropic 的 Claude Sonnet 3.5 相差无几,开发人员一直喜欢 Claude 在快速生成、调试和学习代码方面的能力。
Flexpa 首席技术官Joshua Kelly说:“按需软件就在这里,”他与 Claude 一起在几秒钟内创建了一个自定义应用程序,强调了 Claude Artifacts 如何使用户能够快速开发定制的应用程序,并推动每个人作为潜在应用程序开发人员的愿景。
同时,GitHub 还通过其多模型阵容在编码领域树立了新标准——Claude 3.5 Sonnet、Gemini 1.5 Pro 以及 OpenAI 的 o1-mini 和 o1-preview。这为 VS Code、Xcode 等带来了无与伦比的多功能性和开发人员选择,将 GitHub 定位为满足当今代码生成需求的终极工具包。
4.有钱能使鬼推磨
虽然与去年相比,OpenAI 和 Anthropic 的用户都出现了显著增长,但它们的创收策略揭示了截然不同的方法。
根据上述分析,OpenAI 的大部分收入增长来自其 AI 模型(如 ChatGPT)的付费订阅,而 Anthropic 的大部分收入是通过 API 服务获得的。
实时 API 以及语音和语音控制等创新使 OpenAI 的收入在 2024 年飙升至 40 亿美元,比去年增长 580%。他们的预测收益更令人印象深刻,预测表明他们在2025 年可能达到 116 亿美元。
对于 Anthropic 来说,可用性的飞跃促进了收入增长,今年达到 10 亿美元,增长了 1000%,大部分收入来自 API 访问,迎合寻求无缝 AI 集成的开发人员(这一点跟OpenAI今年在开发人员方面发力的做法是相类似的)。
如果没有 Microsoft,OpenAI 几乎无法生存。这家科技巨头与 OpenAI 根深蒂固的合作伙伴关系,包括迄今为止投资超过 130 亿美元,现在预计季度亏损将达到 15 亿美元。Microsoft 将这一成本归因于其在 OpenAI 中的股权,因为后者面临不断增加的费用以维持其快速增长。
想了解更多AIGC的内容,请访问:
AI.x社区