从"看视频"到"问视频":AI 如何重构购物视频的消费方式

2026-05-22 10:53:11 网络阅读量:7566   
imgad2

                                             ——亚马逊资深设计师胡婧谈视频购物的多模态新范式

"我只想看出锅那一瞬间到底脆不脆。" —— 打开30分钟的空气炸锅测评,大多数人的真实心声。

消费者真正想要的,不是"播放",而是"回答"

设想一个非常熟悉的场景:你在网上挑一台空气炸锅,看到一支 30 分钟的"五道菜大测评"视频。博主认真做了薯条、做了三文鱼、做了披萨、做了蛋挞、做了你最关心的那道——炸鸡翅。

但你真正想看的,可能只有一瞬间:出锅那一刻,鸡皮到底脆不脆。

按照过去的逻辑,你只能拉进度条、来回试探,希望某一帧恰好停在博主夹起鸡翅的那一秒。但视频内部对播放器而言是"黑盒"——它不知道哪一段在炸薯条、哪一段在炸鸡翅、哪一段博主吃完之后还讲了 8 分钟自己跟邻居家小猫的故事。

这就是过去十年里购物视频一直没解决的问题:视频里藏着大量决策信息,但消费者拿到它们的成本太高。

胡婧(Jing Hu)是亚马逊视频购物体验(Video Shopping Experience)团队的资深 UX 设计师。在 Amazon Design 官方账号去年的一次专访里,她这样自我介绍:"I help people shop smartly with videos —— 我帮人们用视频聪明地购物。"

过去一年,她和团队的工作重心,正是把这句话从一句宣言变成几个具体的产品形态。背后的逻辑很简单:消费者真正想要的,不是被动地"播放视频",而是主动地"问视频"。

而让这件事真正发生的关键变量,是多模态 AI。

从"看视频"到"问视频":一次安静的范式转换

亚马逊面向的是数十亿、跨数十种语言的全球消费者,他们对购物视频的态度差异巨大:

有人愿意看完整支视频,把它当成一种"逛街";有人只想直接拿到答案,把视频当成一份可以提问的"知识库";还有人介于两者之间,希望既能浏览,也能在关键点上问一两个具体问题。

胡婧在那篇 LinkedIn 访谈里举过一个她最喜欢的例子:你想给猫挑一个猫窝,你可以呆在家里,先看一段产品视频了解几种款式,再看一段顾客上传的真实使用视频——看看别人家的猫到底买不买账,甚至加入一场 Amazon Live 直播,问主播能不能让她家的猫"现场试用"一下(如果那位喵主子今天心情配合的话)。

这意味着:购物视频不能只有一种消费方式。它需要从"线性媒体"演化为"可被询问的知识资产"。

这是一次安静却深刻的范式转换。它的雏形,最早出现在三个看似独立但其实同源的产品形态里。

三种"让视频开口说话"的产品语言

Video Hotspots:让视频本身长出按钮

Video Hotspots 是一种"贴在视频帧上"的可点击对象。当博主在画面里端出那盘鸡翅时,AI 识别出他用的那台空气炸锅是一件可购买的商品、贴上一个轻量级的小标记;消费者轻点一下,就能直达详情页或者直接加入购物车。

设计上看似简单,难点在两件事:

第一是信任感。标记必须足够准确、视觉干扰必须足够轻,不能让消费者觉得这是植入广告,也不能在镜头切换的瞬间突然弹出,破坏观看节奏。

第二是时机。标记的出现与消失要跟视觉重心同步,不能让消费者在一秒钟内被同时拽向两个方向。

胡婧形容这一类设计解决的本质问题是:把视频从"展示"变成"行动"——让眼睛看到的东西,可以在原地被触摸。

Product Jumplinks:让"商品"成为视频的目录

如果说 Video Hotspots 是把视频帧变成可点击的"货架",那么 Product Jumplinks 则是给整支视频做了一份按"商品"组织的目录。

一支 30 分钟的"猫窝大测评"里出现了 6 款猫窝?没关系,AI 会自动把它们切成 6 个段落——消费者可以直接跳到自己最关心的那一款,跳过其余 25 分钟。

这件事比听起来难。难点不在"识别商品",而在"如何处理博主在多个商品之间反复跳跃、对比、临时插入第三方信息的真实剪辑节奏"。设计师在这里的工作是:让这套自动生成的目录在 AI 出错时也优雅——让消费者能快速察觉异常、并以最低的成本修正它。

Topic Jumplinks:让"话题"成为视频的目录

Topic Jumplinks 更进一步:以"话题"为单位组织视频。比如把空气炸锅测评里的"操作难度""油烟""容量""食材效果""清洗"自动切成段落。它依赖的不再是物体识别,而是更难的语义理解

胡婧特别偏爱这一类形态,因为它最贴近开篇那位"只想看 3 秒钟出锅瞬间"的消费者。它把视频还给了消费者——让他们以自己的优先级穿过内容,而不是被博主的剪辑节奏所裹挟。

当 AI 直接生成答案:多模态 Rufus

如果说前面三种产品还是在"重新组织已有视频",那么多模态版本的 Rufus(亚马逊的 AI 购物助手)则更进一步——它把视频本身变成了答案的载体。

它的工作方式有两条路径:

第一条:精准切片现有视频。 消费者问出一个问题,AI 在海量视频库里检索,定位最相关的视频片段——可能只有 7 秒钟——作为答案的一部分返回。设计上,最难的不是"切得准",而是证据链:消费者凭什么相信这 7 秒就是答案?设计师需要给出可点开、可继续看的上下文,让 AI 的回答能够被"反查"。

第二条:直接生成视频回答。 当现有视频库无法回答消费者的问题时,AI 会生成新的视频片段来辅助购物。这条路径的设计挑战更大:模型在什么时刻应当自信地生成?又应当在什么时刻谦逊地回退到"我不知道"?这两种情况之间那条细细的边界,恰恰是用户信任的全部所在。

设计师在这里的角色,早已不只是画一个按钮、一张卡片。胡婧说,她真正在设计的,是一条完整的链路:

问题 → 答案 → 证据 → 行动

这条链路上任何一步出了问题,消费者对"AI 购物助手"的信任就会被掏空。

一个常被忽略的底座:无障碍

很多人不会立刻把"AI 视频购物"和"无障碍设计"联系在一起。但在胡婧看来,它们是同一件事的两面。

她在那篇 Amazon Design 访谈里,留下过一段对自己工作信念的总结:

"我喜欢为尽可能多的感官设计——比如只用键盘控制视频,比如在没有声音的情况下理解视频的意义,又或者,在没有画面的情况下理解视频的意义。换一个角度去设计,就是换一种新鲜的视角去生活。当我们以包容的方式打开思路时,会发现:真正好的无障碍设计,其实就是给所有人最好的设计。"

为什么这件事和 AI 视频购物息息相关?

因为 Video Hotspots、Product Jumplinks、Topic Jumplinks、多模态 Rufus 这一整套能力,本质上都在做同一件事:把视频里隐含的信息结构化、可读化、可询问化。

而一旦视频有了结构、有了可读性、可以被询问,它就天然对屏幕阅读器友好、对静音观看友好、对键盘导航友好、对低带宽场景友好、对老年用户和认知差异用户友好。

这不是巧合。当 AI 让视频"开口说话",就同时让它对那些过去无法享受视频内容的群体"听得见"。

无障碍不再是产品上线之后亡羊补牢的补丁,它本身就是 AI 视频购物的底座。

设计师在 AI 产品中的新角色

"AI 已经这么厉害了,设计师还要做什么?"——这是胡婧最常被问到的问题。

她的回答是:在 AI 产品里,设计师反而更重要——只是工作内容彻底变了。

她需要回答的问题,不再是"这个按钮应该多大、放在哪里",而是:

AI 在哪些场景应该自信地回答?哪些场景应该谦逊地说"我不知道"?

当 AI 给出答案时,证据该怎样呈现,才足够让消费者建立信任?

当 AI 出错时,消费者如何用最低的成本察觉并修正?

当一段答案需要跨越文字、图片、视频片段、直接行动按钮时,这条信息流的节奏应该怎么走?

这些问题里没有一个能用一段 prompt 直接解决。它们需要的是:对真实用户的同理心、对业务约束的敏感、对设计系统的全局把控,以及最重要的——一个愿意为消费者把关的人

结语:让消费者"觉得自己被理解了"

回到开篇那位只想看 30 分钟视频里出锅那 3 秒钟的消费者。

她可能不会知道,为了让她能精准跳到那一瞬间,背后有多少设计师、工程师、研究员、产品经理在一起工作。但她会感受到一种说不太上来的舒服——视频变得"懂"她了。

胡婧曾经说,真正好的 AI 产品,不是让人惊艳一次就离开的烟花,而是让消费者一次次回来、一次次"觉得自己被理解了"的那种产品。

视频购物的多模态时代,才刚刚开始。

胡婧(Jing Hu),亚马逊视频购物体验团队资深 UX 设计师,曾接受 Amazon Design 官方账号专访,负责视频购物中多个 AI 驱动产品形态的设计实践。