用 AI 做 Amazon 主图视频字幕翻译的注意事项
2025 年很多卖家发现 Whisper + GPT 可以一条龙做字幕翻译 — 听写英文台词 → 翻译成各国语言 → 生成 SRT 文件 → 烧进视频。技术链路打通了,但实际用起来错误率 30%+。这篇说清楚 5 个必须人工介入的环节。
一、AI 字幕翻译的标准流程
- 用 Whisper(或 Otter / Descript)听写视频音频 → 英文文本 + 时间戳
- 用 GPT / Claude 翻译成目标语言(德 / 日 / 法 / 西)
- 转 SRT 格式
- 用 CapCut / Premiere 烧进视频
这个流程从头到尾 AI 跑大概 10-15 分钟,看起来很完美。但成片质量经常不达标。
二、5 个常见坑
坑 1:语速跟不上字幕
英文 30 秒视频翻译成德语,经常字幕长度变长 30-50%(德语单词长)。同样时间戳里塞不下,要么字幕飞快闪过看不清,要么字幕剪短意思失真。
对策:翻译时要让 AI 「保持原句长度,可适当缩略」。GPT 默认不知道这个约束。
坑 2:每行字符数过长
字幕的可读规则:
- 每行最多 42 个字符(英文)/ 28 个字符(中文)/ 16 个字符(日文 / 韩文 / 中文)
- 同时显示最多 2 行
- 每条字幕显示时间 ≥ 1 秒
AI 翻译不知道这些规则,翻出来经常一行 60+ 字符,在手机上完全显示不下。
对策:prompt 里强制约束「每行最多 42 字符(目标语言为英文)/ 16 字符(日文 / 韩文)」。
坑 3:文化适配缺失
常见问题:
- 美式俚语直译到德语 / 日语,native 看完一头雾水
- 价格符号没换("$" → "€" / "¥")
- 单位没换(inch → cm,oz → g)
- 文化梗失真("Black Friday" 在德语圈一样,但日语圈不强)
对策:翻译完让 AI 「检查所有 culturally specific 表达,改成目标市场更自然的说法」,这是个单独 prompt。
坑 4:Amazon 禁词没过滤
英文原文里没违规,但翻译可能违规。例子:
- 英文 "really helps with sleep" → 德语翻成 "heilt Schlaflosigkeit"(治好失眠) = 疗效声明,违规
- 英文 "great deal" → 翻成 "Schnäppchen"(便宜货) = 促销词,违规
对策:翻译后单独跑一次合规检查(用 Step 3 的合规检查 prompt)。
坑 5:时间戳错位
Whisper 听写的时间戳精度 ±0.3 秒。翻译后字幕烧进视频,经常出现:
- 字幕比讲话早 0.3 秒出现
- 字幕比讲话晚 0.5 秒消失
- 切换镜头时字幕还停留在前一帧
对策:用 Descript / Premiere 手动微调时间戳。这一步 5-10 分钟逃不掉。
三、推荐工作流
步骤 1:听写
- 工具:Whisper(本地)/ Descript / Otter
- 输出:带时间戳的英文文本
- 人工检查:听写错误(尤其品牌名 / 专有名词)
步骤 2:翻译(给 AI 的 prompt)
把以下英文字幕翻译成 [目标语言]。要求: 1. 保持每段时长跟原文一致(语速适配) 2. 每行最多 [42 / 28 / 16] 个字符 3. 同时显示最多 2 行 4. 文化适配:用目标市场自然说法,不直译 5. 单位 / 货币符号本地化 6. 避免疗效声明 / 竞品比较 / 绝对化词 输出 SRT 格式。
步骤 3:合规扫一遍
用专门的合规检查 prompt 跑翻译后的版本,标记可疑句子。
步骤 4:人工时间戳微调
在 Premiere / Descript 里逐句调,5-10 分钟。
步骤 5:烧字幕
CapCut / Premiere 烧进视频。注意:
- 字体:中文用思源黑体,日文用 Hiragino,德文用 Roboto / Open Sans
- 字号:视频高度 1/22-1/25
- 位置:底部 1/8 - 1/10 处
- 描边:黑色 2-3px(应对浅色背景)
四、3 种字幕策略
策略 1:全程字幕
每一句台词都配字幕。适合主图视频(静音播放默认)和站外 TikTok / Reels(60%+ 用户静音看)。
策略 2:关键句字幕
只在 hook + 卖点 + CTA 这几个关键节点加字幕。适合详情页视频位(用户主动播放 + 有声)。
策略 3:无字幕
主图视频不放字幕完全不行(静音播放看不懂)。详情页视频位无字幕可以,但完播率会降 10-15%。
五、不同市场字幕优化
| 市场 | 字幕语言 | 注意 |
|---|---|---|
| 美 / 英 | 英文 | 不需要翻译,但要加字幕(静音播放) |
| 德区 | 德文 | 句子长,字幕行数要控制 |
| 法区 | 法文 | 语法变化多,AI 翻译错误率高 |
| 日区 | 日文 | 字符密度高,每行 ≤ 16 字 |
| 多语种(中东) | 阿拉伯文 | 从右到左排,工具支持少 |
六、实战时间 + 成本对比
| 方式 | 1 条视频字幕时间 | 成本 |
|---|---|---|
| 纯人工(翻译 + 时间戳 + 烧字幕) | 2-3 小时 | ¥150-300 |
| 纯 AI(不人工) | 15 分钟 | ¥10-20(API 费) |
| AI + 人工 polish(推荐) | 30-45 分钟 | ¥50-100 |
七、给中国卖家的建议
- 1-2 条视频试做时:纯人工 / 走翻译公司,质量稳
- 10+ 条视频规模时:AI + 人工 polish 流程,效率最优
- 100+ 条视频时:自动化流水线,但保留 manager 验收节点
如果你下单包含字幕需求,可以在 brief 里写「需要 [目标语言] 字幕」,manager 会按上面的工作流出。我们下单页勾选字幕服务即可。