Happy Horse 1.0 AI 视频生成器,自带唇同步
阿里巴巴最新 AI 视频生成模型,Artificial Analysis Video Arena 双榜第一(Text-to-Video Elo 1333,Image-to-Video Elo 1392)— 全部超过 Sora 2 / Veo 3.1 / Kling。
音视频一次生成,1080p 高清输出,7 种语言唇同步:英语 / 普通话 / 粤语 / 日语 / 韩语 / 德语 / 法语。
音频
Happy Horse 1.0 一次生成音频 + 视频 + 唇同步 — 无需独立音频开关。输出始终带原生音频。
视频预览
输入提示词点击生成,创建你的 Happy Horse 视频
Happy Horse 1.0 模型
阿里巴巴 #1 AI 视频生成模型,音视频联合生成 + 7 种语言唇同步。
Happy Horse 1.0
音视频联合生成,多语言唇同步
- 音视频联合输出(单次生成)
- 3-15 秒可调时长
- 7 种语言唇同步
- 支持 1080p 高清
核心能力
Happy Horse 1.0 在 Artificial Analysis Video Arena 文生视频和图生视频双榜均排名第一。
原生音频 + 唇同步
音频和视频通过单次扩散过程联合生成,无需后期合成。7 种语言的角色对白自动唇形对齐。
文生视频
把文字描述转换成 3-15 秒的电影感视频,自带同步音频和角色对白唇形对齐。
图生视频
把静态图片用自然动作和同步音频动起来。上传一张参考图,描述你要的动作和对白。
5 种宽高比
支持 16:9(YouTube)、9:16(TikTok / Reels)、1:1(Instagram)、4:3(传统)、3:4(竖屏),生成时一键选择。
能力深度解析
Happy Horse 1.0 如何用单次正向扩散完成音视频联合生成。
文生视频生成
仅凭文字就能生成有角色对白、环境音、表现力动作的场景。指定对白语言,Happy Horse 自动对齐唇形,共支持 7 种语言。
提示词示例
东京一名咖啡师用日语欢迎客人("いらっしゃいませ"),温暖咖啡馆氛围,轻爵士背景音,镜头缓慢推近。

图生视频动画
把一张静态照片用自然动作和同步音频做活。上传任意参考图,写明要做的动作和对白。
提示词示例
街头小贩面带笑容用英语说 "Hello, my friend!",霓虹灯闪烁,微雨光泽。

音视频联合生成
音频是联合生成,不是后期叠加。唇形对齐覆盖 7 种语言:英语 / 普通话 / 粤语 / 日语 / 韩语 / 德语 / 法语。
提示词示例
法国厨师用法语讲一道菜的做法("On commence par le beurre…"),煎锅滋滋声,刀切菜板声,手持镜头。

五种宽高比
生成时一键选择宽高比,适配主流社交平台 — 无需裁剪、无需加黑边。
提示词示例
9:16 竖屏短片 — 一名滑板手成功完成一个 kickflip,街头环境音,人群欢呼。

积分定价
720p 每秒 12 积分 · 1080p 每秒 24 积分(Plykit Pro 套餐每积分约 ¥0.42)。
| 时长 | 720p | 1080p |
|---|---|---|
| 3s | 40 credits | 80 credits |
| 5s | 60 credits | 120 credits |
| 8s | 96 credits | 192 credits |
| 10s | 120 credits | 240 credits |
| 12s | 144 credits | 288 credits |
| 15s | 180 credits | 360 credits |
如何使用 Happy Horse 1.0
三步生成你的第一个 Happy Horse 视频。
选择模式
文生视频从零开始,图生视频用一张参考图。两种模式都需要写动作 + 对白(角色说话时请指定语言以启用唇同步)。
配置时长 + 尺寸
选择 3-15 秒,720p 或 1080p,以及目标平台对应的宽高比。建议先用 720p 5 秒做预览,确认效果后再上 1080p。
生成并下载
点击「生成视频」,1080p 单次约 38 秒返回 — 拿到自带原生同步音频和唇形对齐的视频。
案例集
Happy Horse 1.0 生成的视频案例。
东京咖啡师 — 日语对白
东京咖啡师用日语欢迎客人,温暖咖啡馆氛围,轻爵士背景音,镜头缓慢推近。
多语言唇同步:日语对白干净,环境音原生融合。
香港滑板手
9:16 竖屏短片 — 滑板手在香港天台完成一个 kickflip,街头环境音,人群欢呼。
人体动作:滑板物理 + 人群反应一次生成。
法国厨师教程
法国厨师用法语讲一道菜的做法,煎锅滋滋声,刀切菜板声,手持镜头。
音视频同步:煎锅、切菜声与画面动作严格对齐。
纽约街头小贩
街头小贩面带笑容用英语说 "Hello, my friend!",霓虹灯闪烁,微雨光泽。
图生视频:静态照片活化为带动作、天气和英语对白的镜头。
创作者爱用 Happy Horse 1.0
Plykit 上 Happy Horse 早期用户的真实反馈。
普通话唇同步惊人地干净 — 比我用过的任何模型都好。完全不需要后期对口型。
音视频联合生成是颠覆性的。我可以一分钟内做出带原生法语对白的教程视频原型。
1080p 38 秒返回 + 同步音频,这个价格点没有任何 API 比得上。
常见问题
关于 Plykit 上 Happy Horse 1.0 的常见问题。
准备好生成自带音频的 AI 视频了吗?
用阿里巴巴 #1 视频模型 Happy Horse 1.0 生成原生音频 + 多语言唇同步的 AI 视频。