02 多模态AI真正的机会在现实任务里

很多人对多模态 AI 的理解,还停留在“它现在能看图了,也能听语音了”。

但如果只把它理解成输入方式变多,那就太低估这件事了。

我越来越觉得,多模态 AI 真正改变的,不是交互表面,而是产品可以开始进入现实任务。

什么叫现实任务?

不是“帮我总结一篇文章”。
而是“我现在在一个陌生展馆里,你帮我判断先看哪里”。
不是“帮我写一份旅行攻略”。
而是“我已经走在这条街上,你告诉我眼前这个地方值不值得停下来”。
不是“告诉我怎么做番茄炒蛋”。
而是“我锅里的这个状态,下一步该不该关火”。

这几种需求的共同点是:

所以我会把下一代 AI 产品,分成两类。

第一类是问答型 AI。
它很强,也很有用,但本质上还是“你问,我答”。

第二类是搭子型 AI。
它不是只回答问题,而是陪你一起做事。
它要理解环境、理解时机、理解任务目标,还要知道什么时候该提醒,什么时候该闭嘴。

我更看好后者。

因为人在现实世界里的大多数高频需求,并不是知识缺失,而是行动过程中的认知负担太重。

你在走路、找路、做饭、看展、带娃、照顾家人、处理突发情况的时候,真正稀缺的不是信息本身,而是:

这正是多模态 AI 最可能提供价值的地方。

也是为什么我一直在看“AI 接入物理世界”这条线。

在这个方向上,目前可以有这些方向:

它们看起来轻,但其实代表了一种非常新的产品机会:
让 AI 从一个屏幕里的回答器,变成一个现实里的协同者。

为什么不考虑工业人机协同场景?主要是目前纯粹依赖多模态的LLM大模型,在严肃的业务场景那里,业务鲁棒性不允许模型可能偶尔的犯错。所以还是会用传统的AI技术方案。

我越来越觉得,未来真正重要的,不是哪个模型参数更大,而是谁先把 AI 放进真实任务闭环里。

谁能让用户在一个具体场景下真切地感觉到:
“我一个人本来做不好,但有这个 AI,我明显更从容了。”

这个价值一旦成立,产品就站住了。

所以如果你也在想 AI 创业或者 AI 产品方向,我会建议你少问一句“模型还能做什么”,多问一句:

现实世界里,人在做哪件事的时候,最需要一个靠谱的 AI 搭子?