02 多模态AI真正的机会在现实任务里

很多人对多模态 AI 的理解，还停留在“它现在能看图了，也能听语音了”。

但如果只把它理解成输入方式变多，那就太低估这件事了。

我越来越觉得，多模态 AI 真正改变的，不是交互表面，而是产品可以开始进入现实任务。

什么叫现实任务？

不是“帮我总结一篇文章”。
而是“我现在在一个陌生展馆里，你帮我判断先看哪里”。
不是“帮我写一份旅行攻略”。
而是“我已经走在这条街上，你告诉我眼前这个地方值不值得停下来”。
不是“告诉我怎么做番茄炒蛋”。
而是“我锅里的这个状态，下一步该不该关火”。

这几种需求的共同点是：

所以我会把下一代 AI 产品，分成两类。

第一类是问答型 AI。
它很强，也很有用，但本质上还是“你问，我答”。

第二类是搭子型 AI。
它不是只回答问题，而是陪你一起做事。
它要理解环境、理解时机、理解任务目标，还要知道什么时候该提醒，什么时候该闭嘴。

我更看好后者。

因为人在现实世界里的大多数高频需求，并不是知识缺失，而是行动过程中的认知负担太重。

你在走路、找路、做饭、看展、带娃、照顾家人、处理突发情况的时候，真正稀缺的不是信息本身，而是：

这正是多模态 AI 最可能提供价值的地方。

也是为什么我一直在看“AI 接入物理世界”这条线。

在这个方向上，目前可以有这些方向：

它们看起来轻，但其实代表了一种非常新的产品机会：
让 AI 从一个屏幕里的回答器，变成一个现实里的协同者。

为什么不考虑工业人机协同场景？主要是目前纯粹依赖多模态的LLM大模型，在严肃的业务场景那里，业务鲁棒性不允许模型可能偶尔的犯错。所以还是会用传统的AI技术方案。

我越来越觉得，未来真正重要的，不是哪个模型参数更大，而是谁先把 AI 放进真实任务闭环里。

谁能让用户在一个具体场景下真切地感觉到：
“我一个人本来做不好，但有这个 AI，我明显更从容了。”

这个价值一旦成立，产品就站住了。

所以如果你也在想 AI 创业或者 AI 产品方向，我会建议你少问一句“模型还能做什么”，多问一句：

现实世界里，人在做哪件事的时候，最需要一个靠谱的 AI 搭子？