米哈游 LPM 1.0 技术深度解析:重新定义 AI 角色表演生成
2026年4月,米哈游创始人蔡浩宇的 AI 公司 Anuttacon 发布了 LPM 1.0(Large Performance Model),这是一款革命性的视频角色表演生成模型,参数规模达到 170 亿。
一、LPM 1.0 是什么?
LPM 1.0(Large Performance Model,大表演模型)是由 Anuttacon 推出的 17B 参数视频角色表演生成模型,其核心能力是:
- 实时全双工音视频对话:支持同时进行说话和倾听的实时互动
- 无限时长身份一致:保持角色外貌、表情在数小时视频中稳定不变
- 三模态控制:文本、音频、参考图像联合控制角色表演
- 零样本泛化:支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格
LPM 1.0 可将单张图片转化为能够说话、倾听、反应且带有细腻微表情的数字人,适用于 AI 对话、虚拟直播、游戏 NPC 等场景。
二、核心技术突破
2.1 解决"表演三难困境"
业界首个同时实现以下三项能力的视频生成模型:
| 能力 | 传统模型 | LPM 1.0 |
|---|---|---|
| 高表现力 | ✅ | ✅ |
| 实时推理 | ❌ | ✅ |
| 长时身份稳定性 | ❌ | ✅ |
传统模型只能兼顾其中两项,而 LPM 1.0 突破了这一限制,成为业界首个"三全其美"的解决方案。
2.2 技术架构详解
数据构建
模型训练采用了严格的质量控制:
- 质量过滤:保留率 < 10%,去除剪辑痕迹、美颜滤镜等缺陷
- 状态标注:利用改进的 LR-ASD 模型标注每帧的说话/倾听/空闲状态
- 音频分离:实现多音轨分离,提取清晰语音
- 多粒度身份参考:构建全局外观、多视角身体和面部表情的参考条件
Base LPM 架构
- 基于 14B 图像到视频预训练模型
- 增加 3B 参数交错音频交叉注意力块
- 形成总计 17B 扩散 Transformer
- 联合学习四大能力:语音驱动动态、倾听反应生成、文本控制、多参考身份保持
- 训练数据:超过 17 万亿多模态 token
Online LPM 架构
通过四阶段自回归蒸馏课程将 Base LPM 转化为因果流式生成器:
阶段1: Backbone - 保持时序潜变量轨迹
阶段2: Refiner - 恢复高保真细节
阶段3: 流式处理优化
阶段4: 低延迟实时推理
2.3 全双工实时交互
这是 LPM 1.0 最具创新性的功能:
传统模型:单向说话生成(只能"说")
LPM 1.0:全双工实时(可同时说/听/打断)
模型能生成自然的倾听反应:
- 点头确认
- 眉毛微动
- 注视转移
- 思考停顿
- 呼吸节奏
三、与竞品对比
3.1 详细对比表
| 维度 | LPM 1.0 | Kling-Avatar 2.0 | OmniHuman-1.5 |
|---|---|---|---|
| 时长限制 | 无限时长 | 最长30秒 | 最长30秒 |
| 交互模式 | 全双工实时 | 单向说话 | 单向说话 |
| 倾听能力 | 原生支持 | 不支持 | 不支持 |
| 身份稳定性 | 数小时一致 | 可能漂移 | 可能漂移 |
| 参数规模 | 17B | 未公开 | 未公开 |
| 用户偏好 | 基准 | 64.3%更偏好LPM | 42.5%更偏好LPM |
3.2 性能评估
在首个交互角色表演基准 LPM-Bench 上,LPM 1.0 全面领先:
- 人工评估中,720P 版本对 Kling-Avatar-2 的偏好率为 64.3%
- 人工评估中,720P 版本对 OmniHuman-1.5 的偏好率为 42.5%
四、技术细节
4.1 三模态控制机制
LPM 1.0 通过三种模态联合控制角色表演:
| 模态 | 控制内容 | 示例 |
|---|---|---|
| 文本 | 控制动作/表情 | "微笑着点头" |
| 音频 | 驱动口型/节奏 | 语音输入 |
| 图像 | 保持身份 | 参考照片 |
4.2 系统架构
用户输入 → A2A 音频模型 → LPM 1.0
↓
循环处理三状态:倾听 → 说话 → 空闲 → ...
↓
实时视频流输出
4.3 情感表演能力
模型能生成细腻的情感表演:
- 犹豫表情
- 思考状态
- 呼吸节奏
- 唱歌时的旋律对齐嘴型
五、应用场景
5.1 对话式 AI 代理
为 AI 助手赋予具象化的人类视觉存在感,用于客户支持、虚拟助理、数字人类。
5.2 互动 NPC 与游戏角色
打造具备语境对话、倾听行为和情感连贯肢体语言的开放世界 NPC,无需单独动作捕捉。
5.3 直播与虚拟主持
实时虚拟流媒体,数小时长直播保持身份一致性,亚秒级延迟,支持24小时全天候播出。
5.4 教育与个性化辅导
AI 导师具备持续视觉存在感,可在长时间教学中保持身份一致。
5.5 游戏伴侣
实时 AI 伙伴通过上下文评论、情感鼓励和自然表情响应游戏过程。
六、当前状态与限制
⚠️ LPM 1.0 目前仅作学术交流,不对外开放
- ❌ 无模型权重
- ❌ 无源代码
- ❌ 无在线演示
- ❌ 无 API 接口
- ✅ 项目页面仅供学术交流
七、项目链接
八、总结
LPM 1.0 代表了 AI 角色表演生成的最新突破:
- 首次实现表演三难困境的全面解决
- 业界领先的全双工实时交互能力
- 无限时长身份一致性
- 原生倾听行为支持
- 零样本泛化能力
这款模型标志着 AI 视频生成技术从"能生成"向"能表演"的重大跨越。
本文发布日期: 2026-04-23