您当前的位置:首页 > 热点新闻

OpenAI前CTO王者归来 宣布AI不再需要对话框

0.4 秒能做什么? 眨一次眼大约需要0.3秒,而Thinking Machines Labs最新发布的Interaction Model,把AI响应延迟压到了0.4秒,比OpenAI的GPT-realtime-2.0快了将近三倍。

0.4 秒能做什么? 眨一次眼大约需要0.3秒,而Thinking Machines Labs最新发布的Interaction Model,把AI响应延迟压到了0.4秒,比OpenAI的GPT-realtime-2.0快了将近三倍。

cover image of news article
前OpenAI技术长Mira Murati(图:Murati社群)

如果你以为Interaction Model 只是一个「速度更快」的语音助手,那就完全搞错了。 真正的突破藏在互动方式里:之前的 AI 模型,包括 GPT-4o 在内,都是「轮流对话」。 用户说话时 AI 听不到别的,AI 说话时也不接收新信息。 一来一回,像发微信。

Thinking Machines 做的,就是把这种模式彻底翻了过来。 它的模型可以边听边说边看,你讲话时它能「嗯嗯」回应,你代码写错了它能直接插话,你视频里做了个动作它能实时分析。

这不是GPT-4o的升级,这是对GPT-4o所在范式的降维打击。 而做这件事的人,正是当年在OpenAI主导GPT-4o路线的技术长Mira Murati。

5月11日,前OpenAI CTO Mira Murati创办的Thinking Machines Labs放出了一段demo和一篇技术部落格文章,立刻点燃了整个AI社群。

swyx 的评价格外直白:「彻底碾压了 GDM 和 OpenAI。」Nathan Lambert 称之为「真正与众不同的 demo」。

在技术架构上,Thinking Machines 放弃了标准的「轮流对话」模式,采用全双工架构——同时处理输入和输出,模型可以一边听一边说一边看。 具体来说,系统每 200 毫秒处理一次输入输出片段,所有感知和生成都在同一个 Transformer 内部完成,不需要专门的语音编码器(如 Whisper)做预处理。

双模型系统也很有趣:一个「前台」Interaction Model(276B 参数 MoE,12B 活跃参数)专门处理即时对话、上下文管理和实时响应; 一个「后台」Background Model 异步处理持续推理、联网搜寻和复杂工具调用,结果再串流回传给前台。

基准测试提供了更硬核的证明——TML-Interaction-Small 在互动质量(FD-bench)上达到 77.8,几乎是 GPT-realtime-2.0(46.8)的两倍。 延迟0.40秒对1.18秒,快了近三倍。 而且在视觉互动测验中,竞争对手面对影片提问「沉默了」或「回答错误」,Thinking Machines 的模型却能准确回应。

要理解这个模型为什么重要,得先理解对话框为什么有问题。 从 ChatGPT 到 GPT-4o,人机交互的核心模式一直没有改变:用户输入→AI 等待→AI 回复。 用户打字时 AI「眼盲耳聋」,AI 说话时用户只能等它说完。 Thinking Machines 在博客里用了一个绝妙的类比:「就像试图透过电子邮件而不是当面解决关键分歧。」

对话本来应该是流畅的、双向的、即时的。 对话框把人类强行塞进了一个「发信息等回应」的框架里。

Interaction Model 要打破的,就是这个框架。 它带来的几个新能力,每一个都在重新定义「什么叫和 AI 对话」:同时听说。 你讲话时 AI 能发出「嗯」「我看看」等回应──这在人类对话中叫 backchanneling,是「我在听」的讯号。 之前的 AI 做不到,因为它要等你讲完才开始处理。

主动打断。 AI 看到你代码里有 Bug,可以直接插话提醒。 这在「轮流对话」模式里是不可能的──AI 在生成响应时根本不接受外界输入。

原生时间感知。 普通 LLM 没有「时钟」概念──它们只能通过文字提示词知道时间。 Interaction Model 天然知道时间流逝,「每 4 分钟提醒我检查温度」这种需求不需要额外编程。

视觉实时互动。 AI 可以边看用户动作边回应——你做深蹲它帮你数数,你写程序它帮你盯着错误。

这些能力组合在一起,指向一个结论:对话框是AI的第一代UI。 Interaction Model 是第二代。 它们的差别,就像命令行和图形界面,像键盘手机和触控手机。

2024年9月,Mira Murati宣布离开OpenAI,随后创立了Thinking Machines Labs。 与其他AI新创公司不同,Thinking Machines Labs更像一次OpenAI分裂。

公司创始团队约30人,约三分之二来自OpenAI,涵盖了从ChatGPT创始团队到GPT-4o核心开发者的完整班底。

当时外界对Mira Murati离职的猜测很多,但真正的原因其实藏在OpenAI的路线之争中。

在 OpenAI 担任 CTO 期间,Murati 一直推动的方向是「全模态即时交互」──这也是 GPT-4o 发布时的核心理念:一个能看、能听、能说、能即时响应的 AI。

但 OpenAI 内部还有另一条路线在崛起,以后来主导 o1 系列的团队为代表──「思维链、大规模推理、慢思考」。 不是追求即时,而是追求「想得更久、想得更深」。

两条路线的冲突在2024年达到顶点。 上半年为了狙击 Google 的 Google I/O 大会,Mira Murati 带领团队以极快速度推出了 GPT-4o。 到了下半年,面对Claude 3.5 Sonnet在代码和逻辑上的压制,Sam Altman和管理层又对o1团队施加了极大的压力,要求尽快将「Strawberry」项目产品化。

虽然Murati主导了GPT-4o的「看听讲」全能,但9月发布的o1-preview和o1-mini却完全是退化的形态,它们不支持语音、不支持多模态,甚至不支持网络搜寻。

这种明显的割裂说明,OpenAI 内部无法在短期内将「全模态即时交互」与「慢思考思维链」融合到一个统一架构中,两条路线最终只能各自为战、分道扬镳。

因此,在 o1 模型刚发布不到两周后,Murati 毫无预警地宣布辞任 CTO。 有海外媒体统计,2024年国外科技公司离职CTO的平均任期为3.9年,但Mira在OpenAI工作了6.3年。

出走的不只她一个人。 她带走了一群原 OpenAI 的核心研究人员。 公司很快就拿到了 a16z 领投的约 20 亿美元融资,估值 120 亿美元。

但创业远比想象中艰难。 核心员工大量流失──7 人以上跳槽 Meta,也有人回流 OpenAI。 唯一的好消息是2025年下半年,PyTorch创始人Soumith Chintala加入担任CTO,为团队注入了顶级的技术底盘。

如今Thinking Machines只有约130人。 Interaction Model 的发布,是 Murati 出走一年多来拿出的最有力回击──她证明了自己在 OpenAI 时坚持的方向,确实能走通,而且能走得更远。

重新定义人机互动

Thinking Machines 在技术部落格里写了一句意味深长的话:「透过让互动成为模型的原生能力,模型的规模成长将同时带来更智慧和更有效的协作。」

翻译成人话就是:以前的 AI,越大越聪明,但互动方式还是那个对话框; Thinking Machines 要让 AI 越大越聪明的同时,也越「好聊」。

这是对整个AI产业趋势的判断——未来竞争的焦点不在模型规模本身,而在互动深度。

如果这个判断是对的,那么最快在未来三年里,以下几个产业将被重新定义:实时监控。 AI 能 24 小时全天候盯着影像串流,看到安全违规时立刻插话提醒,而不是等巡检人员发现异常再上报。

语音客服。 0.4 秒延迟意味着客户几乎感受不到对面是 AI──声音延迟已降到人耳感知阈值以下。

工业维护。 AI 能在工程师拆设备时实时指导、即时警告、即时查阅手册。

医药研发。 原生时间感知让 AI 能追踪实验进程、提醒关键时间节点、在异常发生时立即介入。

2 千亿参数、12 亿活跃、0.4 秒延迟──这些数字固然令人印象深刻。 但Thinking Machines真正押注的是:当对话框被拆掉的那一天,人机互动将被重新定义。 而她所选择的路径,最终会被证明是正确的那一条。

怕被外汇黑平台骗,推荐正规外汇平台:2026年正规外汇平台排名
标题:OpenAI前CTO王者归来 宣布AI不再需要对话框,收录于致富财经, 本文禁止任何商业性转载、分享,如需转载需联系小编并注明来源,部分内容整理自网络,如有侵权请联系删除。

免责声明

本网站所有刊登内容,以及所提供的信息资料,目的是为了更好地服务我们的访问者,本网站不保证所有信息、文本、图形、链接及其它项目的绝对准确性和完整性,网站没有任何盈利目的,故仅供访问者参照使用。本网站已尽力确保所有资料是准确、完整及最新的。就该资料的针对性、精确性以及特定用途的适合性而言,本网站不能作出最对应的方案。所以因依赖该资料所致的任何损失,本网均不负责。 除特别注明之服务条款外,其他一切因使用本站而引致的任何意外、疏忽、合约毁坏、隐秘汇漏、诽谤、版权或知识产权侵犯及其所造成的损失,本站概不负责,亦不承担任何法律责任。 如您(单位或个人)认为本网站某部分内容有侵权嫌疑,敬请立即通知我们,我们将在第一时间予以更改或删除。以上声明之解释权归致富财经网站所有。法律上有相关解释的,以中国法律之解释为基准。如有争议限在我方所在地司法部门解决。

为您推荐

返回顶部