GAMES Webinar 2024 – 336期(相机可控的视频生成模型) | 徐英豪(斯坦福大学),朱智宇(香港城市大学),谢一鸣(东北大学/Stability AI)
【GAMES Webinar 2024-336期】(视觉专题-相机可控的视频生成模型)
报告嘉宾:徐英豪(斯坦福大学)
报告时间:2024年8月22号星期四晚上8:00-8:30(北京时间)
报告题目:Enabling 3D Control in Video Generative Models
报告摘要:
Controllability plays a crucial role in video generation, as it allows users to create and edit content more precisely. Existing models, however, lack control of camera pose. To alleviate this issue, we introduce CameraCtrl, enabling accurate camera pose control for video diffusion models. Our approach explores effective camera trajectory parameterization along with a plug-and-play camera pose control module that is trained on top of a video diffusion model, leaving other modules of the base model untouched. Yet, it remains challenging to generate a video of the same scene from multiple different camera trajectories. We further introduce collaborative video diffusion (CVD) as an important step towards this vision. The CVD framework includes a novel cross-video synchronization module that promotes consistency between corresponding frames of the same video rendered from different camera poses using an epipolar attention mechanism. Trained on top of a state-of-the-art camera-control module for video generation, CVD generates multiple videos rendered from different camera trajectories with significantly better consistency than baselines.
讲者简介:
徐英豪为斯坦福大学博士后研究员,导师是 Gordon Wetzstein 教授,此前毕业于香港中文大学 MMLab,导师为林达华和周博磊教授。他的研究方向为生成模型和神经渲染。至今在 TPAMI、CVPR、ICCV 等期刊或会议发表二十余篇论文,Google 学术引用超过 2500 次。以第一作者身份连续四年在 CVPR、ICLR 等会议上,发表了 5 篇 oral/highlight 论文,曾荣获世界人工智能大会云帆奖金, CVPR 2020 最佳论文候选以及 Snap Fellowship 荣誉提名。
讲者主页:https://justimyhxu.github.io/
报告嘉宾:朱智宇(香港城市大学)
报告时间:2024年8月22号星期四晚上8:30-9:00(北京时间)
报告题目:NVS-Solver以及扩散模型与新视点渲染相融合的一些理解
报告摘要:
报告将围绕以下两点展开:(1)如何快速的理解扩散模型,尤其是以随机微分方程的形式;(2)对于视频扩散模型与新视点合成的一些理解。
讲者简介:
香港城市大学博后,导师为侯军辉教授。主要研究方向为计算机视觉,主要包括视觉生成模型,图像恢复,事件相机等。
讲者主页:https://scholar.google.com/citations?user=d1L0KkoAAAAJ&hl=en
报告嘉宾:谢一鸣(东北大学/Stability AI)
报告时间:2024年8月22号星期四晚上9:00-9:40(北京时间)
报告题目:SV4D: 具有时间和空间一致性的动态3D内容生成
报告摘要:
本次报告将介绍我们最近提出的Stable Video 4D(SV4D),一种用于动态3D内容生成,且具有时间和空间一致的视频扩散模型。与以往依赖于分别训练的视频生成和多视图生成模型的方法不同,我们设计了一个统一的扩散模型来生成动态3D对象的新视图视频。具体来说,给定一个单目参考视频,SV4D为每个视频帧生成时间上连续一致的新视图。然后,我们使用生成的新视图视频来高效优化隐式4D表示(动态NeRF),无需大多数以往方法中使用的繁琐的基于SDS的优化。为了训练我们的统一新视图视频生成模型,我们从现有的Objaverse数据集中整理了一个动态3D对象数据集。在多个数据集上的广泛实验结果和用户研究表明,与以往方法相比,SV4D在新视图视频生成以及4D生成方面表现出色。
讲者简介:
美国东北大学博士生,导师是Huaizu Jiang 教授。在此之前,他于 2019 年获得浙江大学学士学位,导师是周晓巍教授。他的研究重点是 3D 计算机视觉,特别是 3D 重建、感知和生成。他在CVPR、ICCV、ECCV、ICLR等顶级会议上发表了多篇文章。论文曾入围2021 CVPR Best Paper Candidates。2024年获得Apple Scholars in AI/ML PhD fellowship。
讲者主页:https://ymingxie.github.io/
主持人简介:
彭思达,浙江大学软件学院“百人计划”研究员,博士生导师。2023年获得浙江大学计算机科学与技术博士学位。研究方向为三维计算机视觉,代表工作为EasyVolCap、Neural Body、PVNet。至今在TPAMI、CVPR、ICCV等期刊或会议发表四十余篇论文,谷歌学术引用3900余次,其中一篇一作论文获得CVPR最佳论文提名,在GitHub开源获得上万次stars。曾获得2023年全球IMC三维重建挑战赛冠军、2023年世界人工智能大会云帆奖-明日之星、2022 Apple Scholar、2020年CCF-CV学术新锐奖、2021/2023年中国CCF图形开源软件奖。
GAMES主页的“使用教程”中有 “如何观看GAMES Webinar直播?”及“如何加入GAMES微信群?”的信息;
GAMES主页的“资源分享”有往届的直播讲座的视频及PPT等。
观看直播的链接:https://live.bilibili.com/h5/24617282