返回列表

LongCat 全模态创新和视觉改版

LongCat 是美团旗下的全能 AI 助理。我在 2025 年 10 月第一版上线后接手该项目,与项目成员进行了全面的创新性讨论,针对现状进行了重新梳理,并最终确定以 Omni 全模态模型作为突破点,进行 App 的整体体验升级。

我的角色
UX 设计师
项目人数
2
时间线
2025-12-01
项目类型
全流程改版
LongCat  全模态创新和视觉改版

LongCat 作为豆包、Kimi 等 AI 助理的同类产品,功能同质化严重,在用户眼里只是另一个没有特色的 AI 聊天工具。在接手项目后,从设计师的视角看,产品在交互和视觉层面都可以有更高的追求。

Image

而正巧此时,LongCat 的全模态模型 LongCat-Flash-Omni 发布。

破局点:全模态模型

Omni 模型(全模态模型)能同步处理视觉、语音、文本等多模态输入,实时感知物理环境并作出响应。

Image

然而行业普遍将其包装为「视频通话」形态:模型虽能「看见」画面,交互逻辑仍困于「你问我答」的对话框范式,视觉理解、场景感知等核心能力未被释放。更关键的是模态错位——用户以摄像头输入高密度的视觉信息,模型却以文本或语音单模态输出,信息被迫转译,表达效率折损。

Image

我们的判断是:全模态的价值不在「能看见」,而在「能主动理解」。

以此为契机,我们从两个维度重构产品:一是全局视觉语言的确立,解决同质化困境;二是全模态交互的创新,建立差异化壁垒。

视觉改版

LongCat 的视觉改版目标很明确:从「又一个同质的 AI 工具」变成「有设计品味的产品」。液态玻璃、全局深色、粒子特效是本次视觉设计中的关键设计语言。

Image
Image
Image

全模态模型应用的创新

全模态的应用是一个新的交互形态,但它是否有真实的场景、真实的诉求,以及如何设计,是本项目重点要回答的问题。

全模态是否有真实诉求?

为了验证全模态的真实使用场景,我们让设计师在日常和周末随手拍摄照片。逛展拍展品、健身拍器械、旅游拍路牌、辅导拍作业。然后反推:这张照片里的信息,通过图像获取是否比文字描述更快、更准?

Image

结论是能覆盖绝大多数场景。问题不在能力,而在习惯。用户还没建立起「打开摄像头和 AI 交流」的条件反射。

如何培养新习惯?

培养习惯的前提是消除门槛。这里就采用了上滑进入的交互方式(见下方视频),相比传统点击按钮,上滑手势有双重优势:

  • 渐进暴露。滑动过程中摄像头画面逐步露出,配合文字引导,给用户带来探索感,降低心理门槛。
  • 肌肉记忆。上滑是移动端最自然的手势之一,无需寻找按钮位置,盲操作即可完成。

信息如何呈现与收纳?

进入全模态后,模型实时识别画面元素,以半透明 Tips 浮层锚定在对应位置。无需提问,信息主动浮现。

新 Tips 出现时,旧 Tips 自动收拢至右下角堆叠,不干扰当前主视图。点击堆叠可展开历史,在看展等场景中快速回顾之前展品的内容。

Image
Image

二次消费与足迹沉淀

实时识别的价值不止于当下。退出全模态后,所有识别记录以「足迹」形式沉淀,支持时间线或照片墙两种视图进行回溯管理。瞬时交互因此获得了长期价值。

Image

在项目的设计过程中,我们并没有遵循传统的产品 PRD——交互——再视觉的线性流程,而是采用了设计师主导的交互与视觉得交叉模式。最终再以设计提案的形式,展示我们能对 AI 助理这类工具的最新洞察,为业务方提供输入。

在设计过程中,我也加入了前端视角去看待设计,第一次将想要实现的效果,以代码的形式跳过设计稿阶段,直接呈现最终效果。