米哈游 LPM 1.0 技术深度解析：重新定义 AI 角色表演生成

2026年4月，米哈游创始人蔡浩宇的 AI 公司 Anuttacon 发布了 LPM 1.0（Large Performance Model），这是一款革命性的视频角色表演生成模型，参数规模达到 170 亿。

一、LPM 1.0 是什么？

LPM 1.0（Large Performance Model，大表演模型）是由 Anuttacon 推出的 17B 参数视频角色表演生成模型，其核心能力是：

实时全双工音视频对话：支持同时进行说话和倾听的实时互动
无限时长身份一致：保持角色外貌、表情在数小时视频中稳定不变
三模态控制：文本、音频、参考图像联合控制角色表演
零样本泛化：支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格

LPM 1.0 可将单张图片转化为能够说话、倾听、反应且带有细腻微表情的数字人，适用于 AI 对话、虚拟直播、游戏 NPC 等场景。

二、核心技术突破

2.1 解决"表演三难困境"

业界首个同时实现以下三项能力的视频生成模型：

能力	传统模型	LPM 1.0
高表现力	✅	✅
实时推理	❌	✅
长时身份稳定性	❌	✅

传统模型只能兼顾其中两项，而 LPM 1.0 突破了这一限制，成为业界首个"三全其美"的解决方案。

2.2 技术架构详解

数据构建

模型训练采用了严格的质量控制：

质量过滤：保留率 < 10%，去除剪辑痕迹、美颜滤镜等缺陷
状态标注：利用改进的 LR-ASD 模型标注每帧的说话/倾听/空闲状态
音频分离：实现多音轨分离，提取清晰语音
多粒度身份参考：构建全局外观、多视角身体和面部表情的参考条件

Base LPM 架构

基于 14B 图像到视频预训练模型
增加 3B 参数交错音频交叉注意力块
形成总计 17B 扩散 Transformer
联合学习四大能力：语音驱动动态、倾听反应生成、文本控制、多参考身份保持
训练数据：超过 17 万亿多模态 token

Online LPM 架构

通过四阶段自回归蒸馏课程将 Base LPM 转化为因果流式生成器：

阶段1: Backbone - 保持时序潜变量轨迹
阶段2: Refiner - 恢复高保真细节
阶段3: 流式处理优化
阶段4: 低延迟实时推理

2.3 全双工实时交互

这是 LPM 1.0 最具创新性的功能：

传统模型：单向说话生成（只能"说"）
LPM 1.0：全双工实时（可同时说/听/打断）

模型能生成自然的倾听反应：

点头确认
眉毛微动
注视转移
思考停顿
呼吸节奏

三、与竞品对比

3.1 详细对比表

维度	LPM 1.0	Kling-Avatar 2.0	OmniHuman-1.5
时长限制	无限时长	最长30秒	最长30秒
交互模式	全双工实时	单向说话	单向说话
倾听能力	原生支持	不支持	不支持
身份稳定性	数小时一致	可能漂移	可能漂移
参数规模	17B	未公开	未公开
用户偏好	基准	64.3%更偏好LPM	42.5%更偏好LPM

3.2 性能评估

在首个交互角色表演基准 LPM-Bench 上，LPM 1.0 全面领先：

人工评估中，720P 版本对 Kling-Avatar-2 的偏好率为 64.3%
人工评估中，720P 版本对 OmniHuman-1.5 的偏好率为 42.5%

四、技术细节

4.1 三模态控制机制

LPM 1.0 通过三种模态联合控制角色表演：

模态	控制内容	示例
文本	控制动作/表情	"微笑着点头"
音频	驱动口型/节奏	语音输入
图像	保持身份	参考照片

4.2 系统架构

用户输入 → A2A 音频模型 → LPM 1.0
                ↓
    循环处理三状态：倾听 → 说话 → 空闲 → ...
                ↓
         实时视频流输出

4.3 情感表演能力

模型能生成细腻的情感表演：

犹豫表情
思考状态
呼吸节奏
唱歌时的旋律对齐嘴型

五、应用场景

5.1 对话式 AI 代理

为 AI 助手赋予具象化的人类视觉存在感，用于客户支持、虚拟助理、数字人类。

5.2 互动 NPC 与游戏角色

打造具备语境对话、倾听行为和情感连贯肢体语言的开放世界 NPC，无需单独动作捕捉。

5.3 直播与虚拟主持

实时虚拟流媒体，数小时长直播保持身份一致性，亚秒级延迟，支持24小时全天候播出。

5.4 教育与个性化辅导

AI 导师具备持续视觉存在感，可在长时间教学中保持身份一致。

5.5 游戏伴侣

实时 AI 伙伴通过上下文评论、情感鼓励和自然表情响应游戏过程。

六、当前状态与限制

⚠️ LPM 1.0 目前仅作学术交流，不对外开放

❌ 无模型权重
❌ 无源代码
❌ 无在线演示
❌ 无 API 接口
✅ 项目页面仅供学术交流

七、项目链接

项目官网：https://large-performance-model.github.io/
arXiv 技术论文：https://arxiv.org/pdf/2604.07823

八、总结

LPM 1.0 代表了 AI 角色表演生成的最新突破：

首次实现表演三难困境的全面解决
业界领先的全双工实时交互能力
无限时长身份一致性
原生倾听行为支持
零样本泛化能力

这款模型标志着 AI 视频生成技术从"能生成"向"能表演"的重大跨越。

本文发布日期: 2026-04-23