GAMES Webinar 2023 – 275期(三维视觉重建与生成模型) | 段岳圻(清华大学),黄思远(北京通用人工智能研究院)

【GAMES Webinar 2023-275期】(视觉专题-三维视觉重建与生成模型)

报告嘉宾:段岳圻(清华大学)

报告时间:2023年5月4号星期四晚上20:00-20:30(北京时间)

报告题目:可泛化的神经辐射场学习方法

报告摘要:

近年来,基于神经辐射场(Neural Radiance Field, NeRF)的新视角合成方法获得了逼真的渲染效果,相关研究受到广泛关注。现有方法大多依赖多视角相机的训练数据,并且模型训练后难以迁移至新场景使用,其应用范围受到限制。在这次报告中,我将首先介绍基于单目视频的可泛化神经辐射场学习方法MonoNeRF,该方法能够同时利用多个场景的单目视频进行模型训练,得到高逼真、易迁移、可编辑的动态神经辐射场。在渲染新视角图片的基础上,我们进一步探索如何同时理解三维场景的高层语义信息,并提出了可泛化的神经语义场学习方法Semantic Ray。最后,报告将探讨该方向的发展与挑战。

讲者简介:

段岳圻是清华大学电子工程系助理教授,博士生导师。研究方向为计算机视觉、模式识别、深度学习等。2014年和2019年在清华大学自动化系分别获得工学学士和博士学位,2019至2021年在斯坦福大学计算机系担任博士后研究员,合作导师为美国科学院、工程院和艺术科学院三院院士Leonidas J. Guibas教授。他在相关领域以第一/通讯作者发表国际顶级期刊、会议文章二十余篇,包括TPAMI、TIP、CVPR、ECCV等,其中一篇TPAMI入选ESI高被引和热点论文。他曾担任FG会议出版主席、ICME会议领域主席,并曾获得中国人工智能学会优秀博士论文等。

讲者主页:https://duanyueqi.github.io/


报告嘉宾:黄思远(北京通用人工智能研究院)

报告时间:2023年5月4号星期四晚上20:30-21:00(北京时间)

报告题目:三维场景理解中的生成模型

报告摘要:

我将介绍SceneDiffuser,一种用于三维场景理解的条件生成模型。SceneDiffuser提供了一个统一的模型,用于解决基于场景的生成、优化和规划。与先前的工作不同,SceneDiffuser内在地具有场景感知、基于物理和目标导向的特性。通过迭代采样策略,SceneDiffuser通过扩散基础去噪过程以全可微分的方式联合制定了场景感知的生成、基于物理的优化和目标导向的规划。我们用不同的三维场景理解任务对SceneDiffuser进行了评估,包括人体姿态和动作生成、灵巧抓取生成、用于三维导航的路径规划和机器人臂的动作规划。结果显示,与先前的模型相比,SceneDiffuser显著改进了性能,展示了它在三维场景理解领域的巨大潜力。另外,我将介绍几种三维场景理解中其它能够用到SceneDiffuser的新任务。

讲者简介:

黄思远现为北京通用人工智能研究院研究科学家、通用视觉实验室负责人。2021年毕业于美国加州大学洛杉矶分校(UCLA)统计系。研究领域包括计算机视觉、机器学习、认知和机器人学。在CVPR / ECCV / ICCV / NeurIPS / IJCV等会议和期刊发表20余篇论文。目前主要研究三维场景理解问题,包括三维场景解析与重建、具身视觉、基于语言的三维场景理解。研究旨在帮助智能体学习三维表征,感知三维世界,进行泛化推理,并基于图像或视频与三维环境交互。

讲者主页:www.siyuanhuang.com


主持人简介:

刘昊,博士,宁夏大学教授、博士生导师、贺兰山学者,现任信息工程学院副院长,中国科协青年托举人才,毕业于清华大学控制科学与工程专业。长期从事模式识别与计算机视觉的研究工作,已在国际期刊IEEETPAMI\TIP\TIFS\TMM等权威期刊和中国计算机学会推荐国际会议发表论文50余篇。先后主持国家自然科学基金面上项目和青年科学基金项目,中国人工智能学会-华为MindSpore学术奖励基金以及宁夏科技厅重点研发计划等10余项。担任国际期刊CAAI-TRIT青年编委及会议ACMMM\ICME等领域主席。曾获中国人工智能学会优秀博士论文奖、亚洲人工智能技术大会最佳学生论文奖及清华大学优秀博士论文二等奖。

 

GAMES主页的“使用教程”中有 “如何观看GAMES Webinar直播?”及“如何加入GAMES微信群?”的信息;
GAMES主页的“资源分享”有往届的直播讲座的视频及PPT等。
观看直播的链接:http://webinar.games-cn.org

You may also like...