米哈游 LPM 1.0 技术深度解析:重新定义 AI 角色表演生成

jxq
11
2026-04-23

米哈游 LPM 1.0 技术深度解析:重新定义 AI 角色表演生成

2026年4月,米哈游创始人蔡浩宇的 AI 公司 Anuttacon 发布了 LPM 1.0(Large Performance Model),这是一款革命性的视频角色表演生成模型,参数规模达到 170 亿。

一、LPM 1.0 是什么?

LPM 1.0(Large Performance Model,大表演模型)是由 Anuttacon 推出的 17B 参数视频角色表演生成模型,其核心能力是:

  • 实时全双工音视频对话:支持同时进行说话和倾听的实时互动
  • 无限时长身份一致:保持角色外貌、表情在数小时视频中稳定不变
  • 三模态控制:文本、音频、参考图像联合控制角色表演
  • 零样本泛化:支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格

LPM 1.0 可将单张图片转化为能够说话、倾听、反应且带有细腻微表情的数字人,适用于 AI 对话、虚拟直播、游戏 NPC 等场景。

二、核心技术突破

2.1 解决"表演三难困境"

业界首个同时实现以下三项能力的视频生成模型:

能力传统模型LPM 1.0
高表现力
实时推理
长时身份稳定性

传统模型只能兼顾其中两项,而 LPM 1.0 突破了这一限制,成为业界首个"三全其美"的解决方案。

2.2 技术架构详解

数据构建

模型训练采用了严格的质量控制:

  • 质量过滤:保留率 < 10%,去除剪辑痕迹、美颜滤镜等缺陷
  • 状态标注:利用改进的 LR-ASD 模型标注每帧的说话/倾听/空闲状态
  • 音频分离:实现多音轨分离,提取清晰语音
  • 多粒度身份参考:构建全局外观、多视角身体和面部表情的参考条件

Base LPM 架构

  • 基于 14B 图像到视频预训练模型
  • 增加 3B 参数交错音频交叉注意力块
  • 形成总计 17B 扩散 Transformer
  • 联合学习四大能力:语音驱动动态、倾听反应生成、文本控制、多参考身份保持
  • 训练数据:超过 17 万亿多模态 token

Online LPM 架构

通过四阶段自回归蒸馏课程将 Base LPM 转化为因果流式生成器:

阶段1: Backbone - 保持时序潜变量轨迹
阶段2: Refiner - 恢复高保真细节
阶段3: 流式处理优化
阶段4: 低延迟实时推理

2.3 全双工实时交互

这是 LPM 1.0 最具创新性的功能:

传统模型:单向说话生成(只能"说")
LPM 1.0:全双工实时(可同时说/听/打断)

模型能生成自然的倾听反应:

  • 点头确认
  • 眉毛微动
  • 注视转移
  • 思考停顿
  • 呼吸节奏

三、与竞品对比

3.1 详细对比表

维度LPM 1.0Kling-Avatar 2.0OmniHuman-1.5
时长限制无限时长最长30秒最长30秒
交互模式全双工实时单向说话单向说话
倾听能力原生支持不支持不支持
身份稳定性数小时一致可能漂移可能漂移
参数规模17B未公开未公开
用户偏好基准64.3%更偏好LPM42.5%更偏好LPM

3.2 性能评估

在首个交互角色表演基准 LPM-Bench 上,LPM 1.0 全面领先:

  • 人工评估中,720P 版本对 Kling-Avatar-2 的偏好率为 64.3%
  • 人工评估中,720P 版本对 OmniHuman-1.5 的偏好率为 42.5%

四、技术细节

4.1 三模态控制机制

LPM 1.0 通过三种模态联合控制角色表演:

模态控制内容示例
文本控制动作/表情"微笑着点头"
音频驱动口型/节奏语音输入
图像保持身份参考照片

4.2 系统架构

用户输入 → A2A 音频模型 → LPM 1.0
                ↓
    循环处理三状态:倾听 → 说话 → 空闲 → ...
                ↓
         实时视频流输出

4.3 情感表演能力

模型能生成细腻的情感表演:

  • 犹豫表情
  • 思考状态
  • 呼吸节奏
  • 唱歌时的旋律对齐嘴型

五、应用场景

5.1 对话式 AI 代理

为 AI 助手赋予具象化的人类视觉存在感,用于客户支持、虚拟助理、数字人类。

5.2 互动 NPC 与游戏角色

打造具备语境对话、倾听行为和情感连贯肢体语言的开放世界 NPC,无需单独动作捕捉。

5.3 直播与虚拟主持

实时虚拟流媒体,数小时长直播保持身份一致性,亚秒级延迟,支持24小时全天候播出。

5.4 教育与个性化辅导

AI 导师具备持续视觉存在感,可在长时间教学中保持身份一致。

5.5 游戏伴侣

实时 AI 伙伴通过上下文评论、情感鼓励和自然表情响应游戏过程。

六、当前状态与限制

⚠️ LPM 1.0 目前仅作学术交流,不对外开放

  • ❌ 无模型权重
  • ❌ 无源代码
  • ❌ 无在线演示
  • ❌ 无 API 接口
  • ✅ 项目页面仅供学术交流

七、项目链接

八、总结

LPM 1.0 代表了 AI 角色表演生成的最新突破:

  1. 首次实现表演三难困境的全面解决
  2. 业界领先的全双工实时交互能力
  3. 无限时长身份一致性
  4. 原生倾听行为支持
  5. 零样本泛化能力

这款模型标志着 AI 视频生成技术从"能生成"向"能表演"的重大跨越。


本文发布日期: 2026-04-23

动物装饰