从"看视频"到"问视频"：AI 如何重构购物视频的消费方式

2026-05-22 10:53:11 网络阅读量：7566

——亚马逊资深设计师胡婧谈视频购物的多模态新范式

"我只想看出锅那一瞬间到底脆不脆。" —— 打开30分钟的空气炸锅测评，大多数人的真实心声。

消费者真正想要的，不是"播放"，而是"回答"

设想一个非常熟悉的场景：你在网上挑一台空气炸锅，看到一支 30 分钟的"五道菜大测评"视频。博主认真做了薯条、做了三文鱼、做了披萨、做了蛋挞、做了你最关心的那道——炸鸡翅。

但你真正想看的，可能只有一瞬间：出锅那一刻，鸡皮到底脆不脆。

按照过去的逻辑，你只能拉进度条、来回试探，希望某一帧恰好停在博主夹起鸡翅的那一秒。但视频内部对播放器而言是"黑盒"——它不知道哪一段在炸薯条、哪一段在炸鸡翅、哪一段博主吃完之后还讲了 8 分钟自己跟邻居家小猫的故事。

这就是过去十年里购物视频一直没解决的问题：视频里藏着大量决策信息，但消费者拿到它们的成本太高。

胡婧（Jing Hu）是亚马逊视频购物体验（Video Shopping Experience）团队的资深 UX 设计师。在 Amazon Design 官方账号去年的一次专访里，她这样自我介绍："I help people shop smartly with videos —— 我帮人们用视频聪明地购物。"

过去一年，她和团队的工作重心，正是把这句话从一句宣言变成几个具体的产品形态。背后的逻辑很简单：消费者真正想要的，不是被动地"播放视频"，而是主动地"问视频"。

而让这件事真正发生的关键变量，是多模态 AI。

从"看视频"到"问视频"：一次安静的范式转换

亚马逊面向的是数十亿、跨数十种语言的全球消费者，他们对购物视频的态度差异巨大：

有人愿意看完整支视频，把它当成一种"逛街"；有人只想直接拿到答案，把视频当成一份可以提问的"知识库"；还有人介于两者之间，希望既能浏览，也能在关键点上问一两个具体问题。

胡婧在那篇 LinkedIn 访谈里举过一个她最喜欢的例子：你想给猫挑一个猫窝，你可以呆在家里，先看一段产品视频了解几种款式，再看一段顾客上传的真实使用视频——看看别人家的猫到底买不买账，甚至加入一场 Amazon Live 直播，问主播能不能让她家的猫"现场试用"一下（如果那位喵主子今天心情配合的话）。

这意味着：购物视频不能只有一种消费方式。它需要从"线性媒体"演化为"可被询问的知识资产"。

这是一次安静却深刻的范式转换。它的雏形，最早出现在三个看似独立但其实同源的产品形态里。

三种"让视频开口说话"的产品语言

Video Hotspots：让视频本身长出按钮

Video Hotspots 是一种"贴在视频帧上"的可点击对象。当博主在画面里端出那盘鸡翅时，AI 识别出他用的那台空气炸锅是一件可购买的商品、贴上一个轻量级的小标记；消费者轻点一下，就能直达详情页或者直接加入购物车。

设计上看似简单，难点在两件事：

第一是信任感。标记必须足够准确、视觉干扰必须足够轻，不能让消费者觉得这是植入广告，也不能在镜头切换的瞬间突然弹出，破坏观看节奏。

第二是时机。标记的出现与消失要跟视觉重心同步，不能让消费者在一秒钟内被同时拽向两个方向。

胡婧形容这一类设计解决的本质问题是：把视频从"展示"变成"行动"——让眼睛看到的东西，可以在原地被触摸。

Product Jumplinks：让"商品"成为视频的目录

如果说 Video Hotspots 是把视频帧变成可点击的"货架"，那么 Product Jumplinks 则是给整支视频做了一份按"商品"组织的目录。

一支 30 分钟的"猫窝大测评"里出现了 6 款猫窝？没关系，AI 会自动把它们切成 6 个段落——消费者可以直接跳到自己最关心的那一款，跳过其余 25 分钟。

这件事比听起来难。难点不在"识别商品"，而在"如何处理博主在多个商品之间反复跳跃、对比、临时插入第三方信息的真实剪辑节奏"。设计师在这里的工作是：让这套自动生成的目录在 AI 出错时也优雅——让消费者能快速察觉异常、并以最低的成本修正它。

Topic Jumplinks：让"话题"成为视频的目录

Topic Jumplinks 更进一步：以"话题"为单位组织视频。比如把空气炸锅测评里的"操作难度""油烟""容量""食材效果""清洗"自动切成段落。它依赖的不再是物体识别，而是更难的语义理解。

胡婧特别偏爱这一类形态，因为它最贴近开篇那位"只想看 3 秒钟出锅瞬间"的消费者。它把视频还给了消费者——让他们以自己的优先级穿过内容，而不是被博主的剪辑节奏所裹挟。

当 AI 直接生成答案：多模态 Rufus

如果说前面三种产品还是在"重新组织已有视频"，那么多模态版本的 Rufus（亚马逊的 AI 购物助手）则更进一步——它把视频本身变成了答案的载体。

它的工作方式有两条路径：

第一条：精准切片现有视频。 消费者问出一个问题，AI 在海量视频库里检索，定位最相关的视频片段——可能只有 7 秒钟——作为答案的一部分返回。设计上，最难的不是"切得准"，而是证据链：消费者凭什么相信这 7 秒就是答案？设计师需要给出可点开、可继续看的上下文，让 AI 的回答能够被"反查"。

第二条：直接生成视频回答。 当现有视频库无法回答消费者的问题时，AI 会生成新的视频片段来辅助购物。这条路径的设计挑战更大：模型在什么时刻应当自信地生成？又应当在什么时刻谦逊地回退到"我不知道"？这两种情况之间那条细细的边界，恰恰是用户信任的全部所在。

设计师在这里的角色，早已不只是画一个按钮、一张卡片。胡婧说，她真正在设计的，是一条完整的链路：

问题 → 答案 → 证据 → 行动

这条链路上任何一步出了问题，消费者对"AI 购物助手"的信任就会被掏空。

一个常被忽略的底座：无障碍

很多人不会立刻把"AI 视频购物"和"无障碍设计"联系在一起。但在胡婧看来，它们是同一件事的两面。

她在那篇 Amazon Design 访谈里，留下过一段对自己工作信念的总结：

"我喜欢为尽可能多的感官设计——比如只用键盘控制视频，比如在没有声音的情况下理解视频的意义，又或者，在没有画面的情况下理解视频的意义。换一个角度去设计，就是换一种新鲜的视角去生活。当我们以包容的方式打开思路时，会发现：真正好的无障碍设计，其实就是给所有人最好的设计。"

为什么这件事和 AI 视频购物息息相关？

因为 Video Hotspots、Product Jumplinks、Topic Jumplinks、多模态 Rufus 这一整套能力，本质上都在做同一件事：把视频里隐含的信息结构化、可读化、可询问化。

而一旦视频有了结构、有了可读性、可以被询问，它就天然对屏幕阅读器友好、对静音观看友好、对键盘导航友好、对低带宽场景友好、对老年用户和认知差异用户友好。

这不是巧合。当 AI 让视频"开口说话"，就同时让它对那些过去无法享受视频内容的群体"听得见"。