ELICIT-利用大模型先验从单张图片中重建可动人物

来源 | 弗浪科技2023-08-30 18:03:23

近日，弗浪科技与浙江大学等单位合作的论文《One-shot Implicit Animatable Avatars with Model-based Priors》被ICCV 2023接收。计算机视觉

近日，弗浪科技与浙江大学等单位合作的论文《One-shot Implicit Animatable Avatars with Model-based Priors》被ICCV 2023接收。计算机视觉国际大会(ICCV， International Conference on Computer Vision)由IEEE、CVF举办，是计算机视觉领域的全球顶级学术会议，ICCV 2023共收到全球范围内8068篇投稿。最终收录2160篇，接受率为26.8%。

人体的三维重建与合成是计算机视觉领域的广受关注的重要人物，对于辅助驾驶、高级别自动驾驶、智慧交通等领域，该任务有助于合成丰富的道路行人图像、视频，为交通场景中的行人检测、行人重识别、行人行为预测等视觉模型提供训练数据增强，从而提高相关模型的准确率和泛化性能。目前行人数据增强一般依赖于3D引擎合成的人物模型和图像生成模型，其数据多样性和真实程度一般，和真实数据结合使用的效果有限;另一方面，直接重建真实可动人物依赖于对于人物的全身多相机扫描，获取数据的成本高昂，不利于数据增强的应用。

论文提出了一种从单张图片重建高质量可动人体的方法ELICIT：基于预训练的语言-文本多模态感知大模型CLIP，以及人体参数化模型SMPL，使用两个模型中的先验知识来重建可动人体的全身完整外观。仅需单视角的人物全身图片，就可以重建出真实的3D可动人物，用于合成全视角、不同姿态的行人训练数据，显著降低了行人合成数据的获取成本及真实程度，低成本地为行人相关模型提供海量且多样化的人物数据增强。

图 1 本论文方法通过在单样本学习中构建3D可动人体，

可以从单个人物图像中创建自由视角运动视频

具体来说，ELICIT利用了基于蒙皮顶点的人体模型(即SMPL，Skinned Multi-Person Linear Model)的3D身体形状几何先验，并利用基于CLIP的预训练视觉模型实现了穿衣人体外观语义先验。利用这两种先验来共同指导3D人体的重建，在神经辐射场(NeRF, Neural Radiance Field)的3D表示下，创建逼真的全身外观。利用CLIP模型，ELICIT可以使用文本描述来生成文本条件下的未见区域。为了进一步改善视觉细节，我们提出了一种基于分割的采样策略，该策略局部细化了人物外观的不同部分。

图 2 论文重建方法架构图

论文中提出的方法，可以从单张图片中重建可动人体，并渲染合成该人物不同视角、不同姿势的图像和视频的新数据。论文在包括ZJU-MoCAP、Human3.6M和DeepFashion多个人体视频和图片验证了效果，与其他人体重建方法相比，本文方法在只有单张输入图像时，在渲染新视角图像和新动作视频的效果都更为真实准确。

图 3 多样化的行人数据合成结果

当前，该项成果即将被应用于弗浪科技辅助驾驶产品中深度学习模型的训练数据增强，用于提升系统中行人检测分割、行人行为预测等多项任务的准确率，为更加智能的辅助驾驶和行车安全保驾护航。