OpenAI前CTO王者归来宣布AI不再需要对话框-致富财经

0.4 秒能做什么？眨一次眼大约需要0.3秒，而Thinking Machines Labs最新发布的Interaction Model，把AI响应延迟压到了0.4秒，比OpenAI的GPT-realtime-2.0快了将近三倍。

cover image of news article — 前OpenAI技术长Mira Murati（图：Murati社群）

如果你以为Interaction Model 只是一个「速度更快」的语音助手，那就完全搞错了。真正的突破藏在互动方式里：之前的 AI 模型，包括 GPT-4o 在内，都是「轮流对话」。用户说话时 AI 听不到别的，AI 说话时也不接收新信息。一来一回，像发微信。

Thinking Machines 做的，就是把这种模式彻底翻了过来。它的模型可以边听边说边看，你讲话时它能「嗯嗯」回应，你代码写错了它能直接插话，你视频里做了个动作它能实时分析。

这不是GPT-4o的升级，这是对GPT-4o所在范式的降维打击。而做这件事的人，正是当年在OpenAI主导GPT-4o路线的技术长Mira Murati。

5月11日，前OpenAI CTO Mira Murati创办的Thinking Machines Labs放出了一段demo和一篇技术部落格文章，立刻点燃了整个AI社群。

swyx 的评价格外直白：「彻底碾压了 GDM 和 OpenAI。」Nathan Lambert 称之为「真正与众不同的 demo」。

在技术架构上，Thinking Machines 放弃了标准的「轮流对话」模式，采用全双工架构——同时处理输入和输出，模型可以一边听一边说一边看。具体来说，系统每 200 毫秒处理一次输入输出片段，所有感知和生成都在同一个 Transformer 内部完成，不需要专门的语音编码器（如 Whisper）做预处理。

双模型系统也很有趣：一个「前台」Interaction Model（276B 参数 MoE，12B 活跃参数）专门处理即时对话、上下文管理和实时响应; 一个「后台」Background Model 异步处理持续推理、联网搜寻和复杂工具调用，结果再串流回传给前台。

基准测试提供了更硬核的证明——TML-Interaction-Small 在互动质量（FD-bench）上达到 77.8，几乎是 GPT-realtime-2.0（46.8）的两倍。延迟0.40秒对1.18秒，快了近三倍。而且在视觉互动测验中，竞争对手面对影片提问「沉默了」或「回答错误」，Thinking Machines 的模型却能准确回应。

要理解这个模型为什么重要，得先理解对话框为什么有问题。从 ChatGPT 到 GPT-4o，人机交互的核心模式一直没有改变：用户输入→AI 等待→AI 回复。用户打字时 AI「眼盲耳聋」，AI 说话时用户只能等它说完。 Thinking Machines 在博客里用了一个绝妙的类比：「就像试图透过电子邮件而不是当面解决关键分歧。」

对话本来应该是流畅的、双向的、即时的。对话框把人类强行塞进了一个「发信息等回应」的框架里。

Interaction Model 要打破的，就是这个框架。它带来的几个新能力，每一个都在重新定义「什么叫和 AI 对话」：同时听说。你讲话时 AI 能发出「嗯」「我看看」等回应──这在人类对话中叫 backchanneling，是「我在听」的讯号。之前的 AI 做不到，因为它要等你讲完才开始处理。

主动打断。 AI 看到你代码里有 Bug，可以直接插话提醒。这在「轮流对话」模式里是不可能的──AI 在生成响应时根本不接受外界输入。

原生时间感知。普通 LLM 没有「时钟」概念──它们只能通过文字提示词知道时间。 Interaction Model 天然知道时间流逝，「每 4 分钟提醒我检查温度」这种需求不需要额外编程。

视觉实时互动。 AI 可以边看用户动作边回应——你做深蹲它帮你数数，你写程序它帮你盯着错误。

这些能力组合在一起，指向一个结论：对话框是AI的第一代UI。 Interaction Model 是第二代。它们的差别，就像命令行和图形界面，像键盘手机和触控手机。

2024年9月，Mira Murati宣布离开OpenAI，随后创立了Thinking Machines Labs。与其他AI新创公司不同，Thinking Machines Labs更像一次OpenAI分裂。

公司创始团队约30人，约三分之二来自OpenAI，涵盖了从ChatGPT创始团队到GPT-4o核心开发者的完整班底。

当时外界对Mira Murati离职的猜测很多，但真正的原因其实藏在OpenAI的路线之争中。

在 OpenAI 担任 CTO 期间，Murati 一直推动的方向是「全模态即时交互」──这也是 GPT-4o 发布时的核心理念：一个能看、能听、能说、能即时响应的 AI。

但 OpenAI 内部还有另一条路线在崛起，以后来主导 o1 系列的团队为代表──「思维链、大规模推理、慢思考」。不是追求即时，而是追求「想得更久、想得更深」。

两条路线的冲突在2024年达到顶点。上半年为了狙击 Google 的 Google I/O 大会，Mira Murati 带领团队以极快速度推出了 GPT-4o。到了下半年，面对Claude 3.5 Sonnet在代码和逻辑上的压制，Sam Altman和管理层又对o1团队施加了极大的压力，要求尽快将「Strawberry」项目产品化。

虽然Murati主导了GPT-4o的「看听讲」全能，但9月发布的o1-preview和o1-mini却完全是退化的形态，它们不支持语音、不支持多模态，甚至不支持网络搜寻。

这种明显的割裂说明，OpenAI 内部无法在短期内将「全模态即时交互」与「慢思考思维链」融合到一个统一架构中，两条路线最终只能各自为战、分道扬镳。

因此，在 o1 模型刚发布不到两周后，Murati 毫无预警地宣布辞任 CTO。有海外媒体统计，2024年国外科技公司离职CTO的平均任期为3.9年，但Mira在OpenAI工作了6.3年。

出走的不只她一个人。她带走了一群原 OpenAI 的核心研究人员。公司很快就拿到了 a16z 领投的约 20 亿美元融资，估值 120 亿美元。

但创业远比想象中艰难。核心员工大量流失──7 人以上跳槽 Meta，也有人回流 OpenAI。唯一的好消息是2025年下半年，PyTorch创始人Soumith Chintala加入担任CTO，为团队注入了顶级的技术底盘。

如今Thinking Machines只有约130人。 Interaction Model 的发布，是 Murati 出走一年多来拿出的最有力回击──她证明了自己在 OpenAI 时坚持的方向，确实能走通，而且能走得更远。

重新定义人机互动

Thinking Machines 在技术部落格里写了一句意味深长的话：「透过让互动成为模型的原生能力，模型的规模成长将同时带来更智慧和更有效的协作。」

翻译成人话就是：以前的 AI，越大越聪明，但互动方式还是那个对话框; Thinking Machines 要让 AI 越大越聪明的同时，也越「好聊」。

这是对整个AI产业趋势的判断——未来竞争的焦点不在模型规模本身，而在互动深度。

如果这个判断是对的，那么最快在未来三年里，以下几个产业将被重新定义：实时监控。 AI 能 24 小时全天候盯着影像串流，看到安全违规时立刻插话提醒，而不是等巡检人员发现异常再上报。

语音客服。 0.4 秒延迟意味着客户几乎感受不到对面是 AI──声音延迟已降到人耳感知阈值以下。