首页>软件教程>阿里携手北邮，共创‘梦幻言像’：可控数字人静态肖像生成技术新框架

阿里携手北邮，共创‘梦幻言像’：可控数字人静态肖像生成技术新框架

来源：网络时间：2025-05-16 15:03:54

在数字时代前沿，阿里巴巴与北京邮电大学强强联合，共同揭开了“梦幻言像”这一创新技术框架的神秘面纱。这一框架专注于开发高度定制化的可控数字人，特别在静态肖像生成领域实现了突破性进展。它不仅推动了数字内容创作的边界，更是为元宇宙和虚拟交互领域注入了新鲜血液。通过深度学习和人工智能技术的精妙融合，“梦幻言像”使得用户能够以前所未有的精确度和艺术感，设计和控制属于自己的数字肖像，开启了个性化数字身份的新纪元。这项技术不仅是科技进步的展示，更是对个人数字化表达自由的一次重大推进，预示着未来虚拟世界中人机交互将更加丰富、细腻且充满个性。

　　FantasyTalking是什么　　

fantasytalking是阿里巴巴amap团队和北京邮电大学联合提出的新型框架，用于从单张静态肖像生成逼真的可动画化虚拟形象。基于预训练的视频扩散变换器模型，采用双阶段视听对齐策略，第一阶段通过片段级训练方案建立连贯的全局运动，第二阶段通过唇部追踪掩码在帧级别细化唇部运动，确保与音频信号精确同步。框架引入面部专注的交叉注意力模块来保持面部一致性，通过运动强度调制模块实现对表情和身体运动强度的控制。

FantasyTalking的主要功能　　口型同步：能准确识别并同步虚拟角色的口型与输入语音，使角色在说话时的口型与语音内容完全一致，增强了角色的真实感和可信度。　　面部动作生成：根据语音内容和情感信息，生成相应的面部动作，如眨眼、皱眉、微笑等，使虚拟角色的表情更加丰富和生动。　　全身动作生成：能根据场景和情节需要，生成全身的动作和姿态，如行走、奔跑、跳跃等，使虚拟角色在动画中更加自然和流畅。　　运动强度控制：通过运动强度调制模块，用户可以显式控制面部表情和身体运动的强度，实现对肖像运动的可控操纵，不仅限于唇部运动。　　多种风格支持：支持多种风格的虚拟形象，写实风格、卡通风格，能生成高质量的对话视频。　　多种姿态支持：支持生成具有各种身体范围和朝向的逼真说话视频，包括特写肖像、半身、全身以及正面和侧面姿势。　　FantasyTalking的技术原理　　双阶段视听对齐策略　　片段级训练：在第一阶段，通过片段级训练方案，模型会捕捉音频与整个场景（包括参考肖像、上下文对象和背景）之间的弱相关性，建立全局的视听依赖关系，实现整体特征融合。使模型能学习到与音频相关的非语言线索（如眉毛运动、肩膀动作）和强音频同步的唇部动态。　　帧级训练：在第二阶段，模型专注于帧级与音频高度相关的视觉特征细化，特别是唇部动作。通过使用唇部追踪掩码，模型能确保唇部运动与音频信号精确对齐，提高生成视频的质量。　　身份保持：传统的参考网络方法通常会限制视频中人物和背景的大范围自然变化。FantasyTalking采用面部专注的交叉注意力模块，集中建模面部区域，通过交叉注意力机制解耦身份保留与动作生成。更轻量级，能解放对背景和人物自然运动的限制，确保在整个生成的视频序列中保持角色的身份特征。　　运动强度调节：FantasyTalking引入了运动强度调制模块，能显式控制面部表情和身体运动的强度。使用户可以对肖像运动进行可控操纵，不仅限于唇部运动。通过调节运动强度，可以生成更加自然和多样化的动画。　　基于预训练的视频扩散变换器模型：FantasyTalking基于Wan2.1视频扩散变换器模型，基于时空建模能力，生成高保真、连贯的说话肖像视频。模型能有效捕捉音频信号与唇部运动、面部表情以及身体动作之间的关系，生成高质量的动态肖像。　　FantasyTalking的项目地址　　项目官网：　　GitHub仓库：　　arXiv技术论文：　　FantasyTalking的应用场景　　游戏开发：在游戏开发中，FantasyTalking可用于生成游戏角色的对话动画和战斗动画。能根据语音内容生成精准的口型同步、丰富的面部表情和自然的全身动作，使游戏角色更加生动逼真，提升游戏的视觉效果和玩家的沉浸感。　　影视制作：在影视制作中，可用于生成虚拟角色的表演动画和特效动画。通过FantasyTalking可以快速生成具有复杂表情和动作的虚拟角色，减少传统动画制作中的人力和时间成本，为影视作品增添更多的创意和想象力。　　虚拟现实和增强现实：在虚拟现实（VR）和增强现实（AR）应用中，FantasyTalking可以生成虚拟角色的交互动画和引导动画。　　虚拟主播：FantasyTalking可以用于生成虚拟主播的动画视频。支持多种风格的虚拟形象，虚拟主播可以用于新闻播报、直播带货、在线教育等多种场景，具有较高的实用性和灵活性。　　智能教育：在智能教育领域，FantasyTalking可以生成虚拟教师或虚拟助教的动画视频。　　

以上就是FantasyTalking—阿里联合北邮推出静态肖像生成可控数字人的框架的详细内容，更多请关注其它相关文章！

<上一篇：FacePlay: 探索开源世界中的实时面部下一篇：一键转型：FastAPI to MCP，开源 >