LongCat 全模态创新和视觉改版

LongCat 是美团旗下的全能 AI 助理。我在 2025 年 10 月第一版上线后接手该项目，与项目成员进行了全面的创新性讨论，针对现状进行了重新梳理，并最终确定以 Omni 全模态模型作为突破点，进行 App 的整体体验升级。

我的角色

UX 设计师

项目人数

时间线

2025-12-01

项目类型

全流程改版

LongCat 作为豆包、Kimi 等 AI 助理的同类产品，功能同质化严重，在用户眼里只是另一个没有特色的 AI 聊天工具。在接手项目后，从设计师的视角看，产品在交互和视觉层面都可以有更高的追求。

而正巧此时，LongCat 的全模态模型 LongCat-Flash-Omni 发布。

破局点：全模态模型

Omni 模型（全模态模型）能同步处理视觉、语音、文本等多模态输入，实时感知物理环境并作出响应。

然而行业普遍将其包装为「视频通话」形态：模型虽能「看见」画面，交互逻辑仍困于「你问我答」的对话框范式，视觉理解、场景感知等核心能力未被释放。更关键的是模态错位——用户以摄像头输入高密度的视觉信息，模型却以文本或语音单模态输出，信息被迫转译，表达效率折损。

我们的判断是：全模态的价值不在「能看见」，而在「能主动理解」。

以此为契机，我们从两个维度重构产品：一是全局视觉语言的确立，解决同质化困境；二是全模态交互的创新，建立差异化壁垒。

LongCat 的视觉改版目标很明确：从「又一个同质的 AI 工具」变成「有设计品味的产品」。液态玻璃、全局深色、粒子特效是本次视觉设计中的关键设计语言。

全模态的应用是一个新的交互形态，但它是否有真实的场景、真实的诉求，以及如何设计，是本项目重点要回答的问题。

为了验证全模态的真实使用场景，我们让设计师在日常和周末随手拍摄照片。逛展拍展品、健身拍器械、旅游拍路牌、辅导拍作业。然后反推：这张照片里的信息，通过图像获取是否比文字描述更快、更准？

结论是能覆盖绝大多数场景。问题不在能力，而在习惯。用户还没建立起「打开摄像头和 AI 交流」的条件反射。

培养习惯的前提是消除门槛。这里就采用了上滑进入的交互方式（见下方视频），相比传统点击按钮，上滑手势有双重优势：

进入全模态后，模型实时识别画面元素，以半透明 Tips 浮层锚定在对应位置。无需提问，信息主动浮现。

新 Tips 出现时，旧 Tips 自动收拢至右下角堆叠，不干扰当前主视图。点击堆叠可展开历史，在看展等场景中快速回顾之前展品的内容。

实时识别的价值不止于当下。退出全模态后，所有识别记录以「足迹」形式沉淀，支持时间线或照片墙两种视图进行回溯管理。瞬时交互因此获得了长期价值。

在项目的设计过程中，我们并没有遵循传统的产品 PRD——交互——再视觉的线性流程，而是采用了设计师主导的交互与视觉得交叉模式。最终再以设计提案的形式，展示我们能对 AI 助理这类工具的最新洞察，为业务方提供输入。

在设计过程中，我也加入了前端视角去看待设计，第一次将想要实现的效果，以代码的形式跳过设计稿阶段，直接呈现最终效果。