GAMES Webinar 2024 – 359期(4D生成) | 朱思语(复旦大学)，胡文博(腾讯ARC Lab)

by 木折_Oreki · 2025年3月25日

【GAMES Webinar 2025-359期】(视觉专题-4D生成)

报告嘉宾：朱思语(复旦大学)

报告时间：2025年3月20号星期四晚上8:00-8:40（北京时间）

报告题目：基于三维物理约束的交互式人像视频生成

报告摘要：

近年来，基于扩散和自回归的视觉生成模型取得了显著进展。然而，现有视觉生成结果在外观、几何和运动等真实世界物理属性的表达上仍存在明显局限。此外，现有方法通常依赖预设的控制条件，缺乏有效的外部环境交互机制。因此，本讲座将探讨以三维模型作为人像视频生成的物理表征基础，以更好地刻画真实物理属性并提供端到端的交互能力。通过将三维重建与视觉生成模型相结合，期望在保留人像精细视觉品质的同时，增强对姿态、运动和环境交互的灵活性与可控性，为人像视频生成探索新的研究和应用空间。

讲者简介：

朱思语，复旦大学人工智能创新与产业研究院研究员、长聘正教授及博士生导师，研究方向为视频与三维生成模型。在CVPR、ICCV、ECCV、PAMI等国际会议和期刊上发表论文60余篇。博士期间，他联合创立了3D视觉公司Altizure，后被苹果公司收购。2017年至2023年，他担任阿里云人工智能实验室总监。他曾任ICCV/AAAI领域主席/程序委员会成员，荣获中国计算机学会杰出工程师奖。

讲者主页：https://sites.google.com/site/zhusiyucs

报告嘉宾：胡文博(腾讯ARC Lab)

报告时间：2025年3月20号星期四晚上8:40-9:20（北京时间）

报告题目：生成式新视角合成：从静态到动态

报告摘要：

本次报告将分享我们在生成式新视角合成方向的两个工作。其中ViewCrafter可以从单张图片或者稀疏的多视角图片进行高质量的新视角合成。它将重建式方法的精确视角可控性和生成式视频模型的高质量内容生成能力有机地融合了起来，且借助大规模multi-view数据的训练，实现了高度泛化性的新视角合成。第二个工作TrajectoryCrafter延续了该思想，拓展到了4D动态新视角合成。它是一个video-to-video模型，可以允许用户自由地生成新指定相机轨迹下的视频，从而实现探索视频背后的4D世界。它引入了点云和原始视频的双分支控制结构，保证了精准的视角变换关系和4D一致的内容生成。为了解决动态multi-view video训练数据的稀缺，我们引入了创新的数据准备策略，实现了在web-scale的单目视频和multi-view图片数据集上训练我们的模型。最终实现了允许用户使用想要的相机轨迹来重新“拍摄”输入视频。

讲者简介：

胡文博，腾讯ARC Lab高级研究员，博士毕业于香港中文大学。研究方向为生成式的世界模型，包括图像/视频的3D/4D重建，新视角合成，视频生成等。在图形学和视觉国际期刊和会议发表20余篇论文，包括SIGGRAPH (Asia), CVPR, ICCV, ECCV, NeurIPS等。曾获CCF优秀大学生，所做工作Tri-MipRF曾获得ICCV’23 Best Paper Finalist。

讲者主页：https://wbhu.github.io/

主持人简介：

周晓巍，浙江大学求是特聘教授，国家级科技创新领军人才。研究方向主要为三维视觉及其在混合现实、机器人等领域的应用。作为项目负责人承担国家重点研发计划项目、国自然企业联合重点项目。近五年在相关领域的顶级期刊与会议上发表论文80余篇，多次入选CVPR最佳论文候选。曾获得浙江省自然科学一等奖，两次获得CCF优秀图形开源贡献奖。培养学生获得CCF优博、国自然优秀学生基金。担任国际顶级期刊IJCV编委、顶级会议CVPR/ICCV领域主席，曾任图形学与混合现实研讨会（GAMES）执行委员会主席。

GAMES主页的“使用教程”中有 “如何观看GAMES Webinar直播？”及“如何加入GAMES微信群？”的信息；
GAMES主页的“资源分享”有往届的直播讲座的视频及PPT等。
观看直播的链接：https://live.bilibili.com/h5/24617282