GAMES Webinar 2024 – 317期(三维视觉内容生成：图形学 vs. 视觉大模型) ｜Talk+Panel形式

by louise · 2024年3月31日

【GAMES Webinar 2024-317期】(渲染专题-三维视觉内容生成：图形学 vs. 视觉大模型｜Talk+Panel形式)

详细日程：2024年4月3号 10:00-12:00(北京时间)

10:00-10:15 RGB↔X: 基于材质与光照的图像生成扩散模型(闫令琪，University of California, Santa Barbara)

10:15-10:30 面向AI时代的全局神经绘制流水线(霍宇驰，浙江大学)

10:30-10:45 多模态视频理解基础模型(王利民，南京大学)

10:45-11:00 融合数据驱动和物理法则的三维视觉内容生成(王申龙，伊利诺伊大学厄巴纳-香槟分校)

11:00-12:00 圆桌研讨

研讨嘉宾：闫令琪、霍宇驰、王利民、王申龙

报告嘉宾：闫令琪(University of California, Santa Barbara)

报告时间：2024年4月3号星期三10:00-10:15(北京时间)

报告题目：RGB↔X: 基于材质与光照的图像生成扩散模型

讲者简介：

闫令琪博士，加州大学圣芭芭拉分校助理教授，于 2013 年获清华大学学士学位，2018 年获加州大学伯克利分校博士学位。他的研究方向是真实感图形渲染，包括精确的材质观测与建模、离线和实时的光线追踪等等。闫令琪博士在高度细致的真实感渲染方面做出了开创性的研究，并因此于 2019 年被 SIGGRAPH 授予杰出博士论文奖，之后又于 2022 年带领学生团队获得 SIGGRAPH 最佳论文奖提名。同时，闫令琪博士在实时光线追踪方面的贡献直接推动了工业界的光线追踪 GPU 架构。他的科研成果被直接应用于电影和游戏行业，曾帮助影片《阿凡达：水之道》获得奥斯卡最佳视觉效果奖。此外，闫令琪博士还开设了一系列图形学入门系列网络课程 GAMES101 等等，已有 200 余万播放量，深受广大师生好评。

报告摘要：

传统的图形渲染过程可以生成真实的图像，但是需要对场景、光照、材质有严格的定义。现代的扩散模型也可以几乎做到以假乱真，但是对细节的控制与编辑却相对困难。在本报告中，我会介绍我们组的最新工作，初步尝试去结合两种生成方式的优点：利用渲染中常见的几何缓冲区(G-buffer)的概念，实现可控的基于扩散方法的图像生成。

讲者主页：https://sites.cs.ucsb.edu/~lingqi/

报告嘉宾：霍宇驰(浙江大学)

报告时间：2024年4月3号星期三10:15-10:30(北京时间)

报告题目：面向AI时代的全局神经绘制流水线

讲者简介：

霍宇驰，浙江大学CAD&CG实验室百人计划研究员，围绕光能传输开展计算机图形学、计算机视觉、计算光学、人工智能的研究工作，当前的研究题目包括真实感绘制、实时绘制、神经绘制、三维重建、光学神经网络等，在Nature Communications、SIGGRAPH、CVPR、NIPS等相关领域的顶刊顶会上已发表30余篇工作，获得过TOG封面、CVMJ年度Hightlight、CGF Top Cited等认证，应用于华为、酷家乐、光线云等企业平台，获得过启真优秀青年学者，陆增镛CAD&CG高科技奖、浙大信息学部青年创新奖等奖项，担任过SIGGRAPH Asia Session Chair等职务。

报告摘要：

本报告基于重建、生成、绘制、交互、计算等方向最新发展的观察出发，试图讨论AI技术对传统图形流水线带来的影响，包括AI时代可能的图形绘制新范式，以及我们在全局神经绘制流水线上的一些新进展。

讲者主页：http://www.cad.zju.edu.cn/home/huo/

报告嘉宾：王利民(南京大学)

报告时间：2024年4月3号星期三10:30-10:45(北京时间)

报告题目：多模态视频理解基础模型

讲者简介：

王利民，南京大学教授，博士生导师，国家海外高层次人才计划青年项目入选者，科技创新2030-“新一代人工智能”重大项目青年科学家。2011年在南京大学获得学士学位，2015年在香港中文获得博士学位，2015年至2018年在苏黎世联邦理工学院(ETH Zurich)从事博士后研究工作。主要研究领域为计算机视觉和深度学习，专注视频理解和动作识别，在IJCV、T-PAMI、CVPR、ICCV、NeurIPS等重要学术期刊和会议发表论文100余篇。根据Google Scholar统计，论文被引用 22000余次，两篇一作论文取得了单篇引用超过3000的学术影响力。在视频分析领域提出了系列有重要影响力的基础模型和基准方法，例如：TSN网络结构，VideoMAE预训练方法，MixFormer跟踪器等。曾获得广东省技术发明一等奖，世界人工智能大会青年优秀论文奖，ACM MM2023最佳论文荣誉提名奖。入选2022-2023年度AI 2000人工智能全球最具影响力学者榜单(计算机视觉方向)，2022年度全球华人AI青年学者榜单，2021-2022年度爱思唯尔中国高被引学者榜单。担任CVPR/ICCV/NeurIPS等重要国际会议的领域主席和计算机视觉领域旗舰期刊IJCV的编委。

报告摘要：

构建视觉基础模型(Foundation Model)已经成为目前计算机视觉任务的重要性能增长点。视频理解领域面临着数据维度高、信息容量大、场景变化多等核心挑战，如何构建通用视频基础模型已经成为现阶段一项极具挑战的任务。本次报告将介绍南京大学媒体计算课题组和上海人工智能实验室通用视频团队在视频基础模型方面的研究工作。同时还会介绍我们最近的高效视频合成框架BIVDiff.

讲者主页：https://wanglimin.github.io/

报告嘉宾：王申龙(伊利诺伊大学厄巴纳-香槟分校)

报告时间：2024年4月3号星期三10:45-11:00(北京时间)

报告题目：融合数据驱动和物理法则的三维视觉内容生成

讲者简介：

王申龙，伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学系的助理教授。他在2021年于多伦多大学获得了博士学位，并曾在Uber ATG担任研究科学家。他的研究兴趣包括计算机视觉、机器人学和机器学习，近期专注于基于视觉的三维建模和仿真，以及三维生成。他的研究成果已在顶级会议上发表了50多篇论文，其中包括15次以上的口头报告。他的工作曾被选为IROS最佳应用奖入围者和CVPR最佳论文候选。他曾获得Intel和Amazon研究奖，NSF Career Award，以及Facebook、Adobe、加拿大皇家银行等奖学金。他长期担任CVPR, ICCV, ECCV, NeurIPS, ICRA, IROS等会议的领域主席和编委。

报告摘要：

在本次报告中，我将探讨如何应用三维计算机视觉技术对现实世界进行建模，并通过融合物理仿真与生成模型来实现逼真且可信的视觉创作。我将从物理仿真与生成模型两个不同的角度，介绍我们在这一领域最近的进展。最终，我将简要讨论将物理模型与生成模型相结合的一些挑战，以及如何将其用于视觉内容创造的未来展望。

讲者主页：https://shenlong.web.illinois.edu/

主持人简介：

王贝贝, 南京大学(苏州校区)智能科学与技术学院教授。研究方向为计算机图形学渲染方向，分别于2009年和2014年在山东大学获得学士和博士学位，曾在INRIA从事博士后研究，曾在香港理工大学访问交流，曾参与Disney Infinity研发，提出SpongeCake材质模型，应用在多个引擎中。发表ACM TOG、SIGGRAPH(Asia)多篇。担任SIGGRAPH 2023-2024程序委员会委员。个人主页为：https://wangningbei.github.io/

过洁，现为南京大学计算机科学与技术系长聘副教授(特聘研究员)，主要研究领域为计算机图形学和虚拟现实。迄今为止，共主持相关领域科研项目30余项，包括国家自然科学基金面上项目、“十三五”装发预研项目课题、江苏省自然科学基金面上项目、企业合作项目多项，在国内外主流期刊和会议上发表论文90余篇，包括SIGGRAPH、CVPR、ICCV、IEEE TVCG、IEEE TIP等，开发的材质建模、光照估计、高性能渲染等技术已被多家知名企业应用，产生了显著的经济和社会效益。过洁曾获华为火花奖、江苏省计算机学会青年科技奖、江苏省工程师学会优秀青年工程师奖等奖励，入选江苏省“双创计划”科技副总计划。

GAMES主页的“使用教程”中有 “如何观看GAMES Webinar直播？”及“如何加入GAMES微信群？”的信息；
GAMES主页的“资源分享”有往届的直播讲座的视频及PPT等。
观看直播的链接：https://live.bilibili.com/h5/24617282