一种可与三维场景目标及用户交互的人体动作生成方法

发布时间：2024-09-12

专利示意图

一、技术领域

3D数字人生成技术领域

二、专利介绍

1.专利信息

专利类型：发明

专利权人：清华大学深圳国际研究生院

申请号：202410105282.5

发明人：张亚超、马弋弋、李秀

2.专利说明书摘要

一种可与三维场景目标及用户交互的人体动作生成方法，包括：输入场景、交互语言描述以及训练动作序列；对场景进行特征提取；对交互语言描述进行语义特征提取；对人体动作进行表示和进行特征编码；将提取的场景特征、语义特征和人体动作特征进行融合，并送入迭代优化轨迹解码器；利用双Transformer结构迭代地学习场景中的路径规划和文本控制的人类动作序列；迭代优化轨迹解码器根据用户需求和选择的场景生成对应的3D场景中的动作序列，并通过语言控制的三维场景动作自适应模块，实现人机场景交互的可控文本场景动作生成。本方法可在给定的3D场景中，从自然语言文本描述中生成准确定位和个性化的人体运动序列，实现用户友好、个性化的人机场景交互生成任务。

3.创新点

（1）本发明涉及人工智能生成、人机交互学习领域，针对具有场景、用户交互的3D动作生成需要大量专业领域知识工程师手工绘制，效率低下，提出一种智能化感知三维场景、交互信息并生成对应数字人动作的方法；

（2）该方法从两个方面增强了人与场景之间的交互：与3D场景中的对象交互和与用户输入的个人动作描述交互；

（3）该方法设计了迭代优化轨迹解码器，这是一种将动作和轨迹解耦的解决方案，并对两者进行迭代优化。实现了路径和行进方向的预测；

（4）该方法可以使用所提出的动作自适应模块简单地启用MotionGPT生成的动作序列，合理地整合路径和行进方向，形成良好的动作连贯性；

（5）该方法可以完成高质量动作重建和生成，在生成过程中实现了更准确的交互动作。

4.痛点问题

提高了三维场景中数字人动作生成的可交互性以及生成质量的准确性。

5.技术优势

（1）具有同时与三维场景、用户的交互的生成能力；

（2）可通过自然语言实现对动作的精细控制；

（3）可以感知交互对象的方位、高度，实现和目标的准确交互；

（4）本方案算法简单，计算复杂度低。

三、产业化信息

1.应用场景

（1）游戏，用于开发游戏人物原型；

（2）电影、动画制作，减低3D动作资产的开发成本。

2.商业价值

此项技术拥有巨大的商业前景，对于VR/AR，3D动画制作行业有以下市场价值：

（1）可以帮助动画绘图师轻松快速构建3D人体动画；

（2）可以根据语言描述在真实场景中快速生成对应的人体动作序列。

3.合作方式

面议

注:所有成果未经授权，请勿转载

联系方式：ttc@sz.tsinghua.edu.cn

专利成果展示

常用链接