百人同时进入数字世界,动作数据如何成为具身智能新基础设施?
100名演员身着动捕服,伴随着原创舞蹈《上海之光》的旋律,在上海青瞳视觉MCP无界棚约1000平方米的空间里展演。现场大屏上,由5300个数字骨骼点构成的100个虚拟“数字人”以120帧的帧率,严丝合缝地同步起舞。
这是5月31日由青瞳视觉CHINGMU主办的“100人,同时进入数字世界”百人实时动作捕捉挑战暨数字动作展演现场。

动作捕捉并非新技术。过去三四十年间,它已被广泛应用于影视特效、游戏动画、运动分析、虚拟制作等领域。公开资料显示,此前国际公开认证的实时多人动作捕捉纪录为19人,国内同类公开挑战最高规模为40余人。但当实时动作捕捉从数十人扩大到百人规模,技术难度并非线性增长。
青瞳视觉创始人兼CEO张海威表示,过去较小规模动捕所需场地、相机数量、相机分辨率都相对有限,而百人同场后,场地从300平方米扩大到约1000平方米,相机数量从28台增加到76台,相机分辨率从400万像素提升到2600万像素。“把76台动捕相机想象成70多层的迷宫。每一个点进去,都会遇到由两三千个标记点组成的岔路口。层层迷宫走下来,搜索空间是天文数字。系统必须在极短时间内,从这个浩瀚的数据海洋里准确复原出每一个人的三维动作。”张海威说。

在百人密集舞蹈中,动捕演员互相遮住标记点,标记点丢失、重现、误匹配,都可能导致骨骼漂移和动作失真。张海威介绍,青瞳视觉在此次系统中结合AI解算管线与传统解析方法,对遮挡、丢点和身份识别问题进行处理,以提高大规模多人场景下的动作还原度和系统稳定性。
百人实时动捕的背后,是算法优化与算力平台的协同。AMD大中华区渠道FAE高级经理焦健庭表示,AMD在此次挑战中主要承担“算力底座”的角色。焦健庭介绍,在准备挑战期间,双方工程团队围绕硬件设置、多线程调度、散热和系统稳定性进行了优化,使整套系统在高负载环境下保持稳定运行,并成功实现系统端到端延迟低于12毫秒。

数据采集的成本和效率越来越成为具身智能发展的制约因素。在具身智能展示环节,一名动捕演员通过青瞳视觉动捕系统,实时操作6台宇树G1机器人同步完成舞蹈。百人级实时动捕能力意味着在同一空间内可以进行更大规模与更高效的动作数据采集,为人形机器人动作学习、人机交互和复杂场景仿真提供高质量动作数据。
张海威从事二十多年人工智能、计算机视觉相关工作。在他看来,中国光学动捕系统已从过去的追赶状态,进入与国际先进水平并跑、部分环节实现突破的新阶段。“整体上是持平,局部上已经开始领先。”
本次百人实时动捕挑战的核心价值不止于刷新世界纪录,更是青瞳视觉面向全产业的大规模实时动作数据基础设施能力验证。本次挑战以完全自主的核心技术,实现中国动捕产业从“国产替代”到“全球引领”的关键跨越,证明中国自主光学动捕系统已跻身全球顶级行列,重塑全球动捕技术格局。



