GAMES Webinar 2020 – 141期(计算机视觉专题) | 李冠彬(中山大学), 吴琦(澳大利亚阿德莱德大学)

by yuanqing · 2020年5月31日

【GAMES Webinar 2020-141期】(计算机视觉专题)

报告嘉宾1：李冠彬(中山大学)

报告时间：2020年6月4号星期四晚上8:00-8:45（北京时间）

报告题目：Language-Driven Visual Reasoning for Referring Expression Comprehension

报告摘要：

Grounding referring expressions is a fundamental yet challenging task facilitating human-machine communication in the physical world. It aims to locate the object instance described by a natural language referring expression in an image. This task is compositional and inherently requires visual reasoning on top of the relationships among the objects in the image. In this talk, I will briefly introduce the research progress of this topic and then mainly focus on three of our recent works (CVPR2019, ICCV2019, CVPR2020) from the perspective of relationship embedded feature representation, language-driven visual reasoning and our proposed Ref-Reasoning dataset.

讲者简介：

Guanbin Li is now an associate professor with School of Data and Computer Science, Sun Yat-sen University. He obtained his PhD degree in computer science from the University of Hong Kong in 2016. His research interests include visual perception modeling, cross-modal visual comprehension and transfer learning. He is the author of more than 50 papers in top-tier journals and conferences such as IEEE TPAMI, IEEE TIP, CVPR, ICCV, ICML, AAAI, IJCAI. His research work is supported by the Guangdong NSFs for Distinguished Young Scholars in 2020. He is also a recipient of ICCV Best Paper Nomination Award in 2019, ACM China Rising Star Nomination Award, the First Prize of Science and Technology awarded by China Society of Image and Graphics.

讲者个人主页: http://guanbinli.com/

报告嘉宾2：吴琦(澳大利亚阿德莱德大学)

报告时间：2020年6月4号星期四晚上8:45-9:30（北京时间）

报告题目：视觉，语言，交互与生成

报告摘要：

视觉-语言（Vision-and-Language）问题是近年来非常热门的一个研究课题，而其中很多问题都与生成问题息息相关，比如image captioning是基于图像生成语言，text-image synthesis是基于语言生成图像，目前主流的算法倾向于使用end-to-end的方式，通过学习大量的数据，去解决语言和图像的生成问题，这就导致生成的大量样本是不可控的。我们认为，语言作为一种交互工具，理应是可控的，即无论是语言还是图像的生成，都应该是一个可交互，可控制的过程。基于以上想法，我们近期提出了几个工作，一个是controllable image caption generation，另外一个是 house design from a linguistic description, 这两个工作都是利用了graph天然的结构化表征能力以及推理逻辑能力，而达到一个可控的，可交互的文字与图像生成效果。而在另外一个工作中，我们又同时将视觉，语言，交互嵌入到一个3D真实环境中，来指导机器人完成相应的动作指令。我将在本次报告中，对这些工作进行介绍。

讲者简介：

吴琦，澳大利亚阿德莱德大学助理教授，博士生导师，澳大利亚国家杰出青年基金项目获得者 (Australian Research Council DECRA Fellow)，澳大利亚机器人视觉研究中心（ACRV）vision-language课题组组长，澳大利亚科学院罗素奖获得者。吴琦博士于2015年在英国巴斯大学获得博士学位，致力于计算机视觉领域研究，尤其关注于计算机视觉-自然语言相关领域的研究。吴琦博士在CVPR，ICCV，ECCV, AAAI, IJCAI, TPAMI等多个顶级国际会议和期刊发表论文五十余篇，吴琦博士亦担任TPAMI，IJCV，TIP，CVPR，NIPS，ACL等顶级学术期刊会议审稿人。

讲者个人主页: http://qi-wu.me/

主持人简介：

韩晓光，博士，香港中文大学(深圳)研究助理教授。其研究方向包括计算机视觉、计算机图形学、虚拟现实和医疗图像处理等，在该方向著名国际期刊和会议发表论文近30篇，包括顶级会议和期刊SIGGRAPH,CVPR,ICCV,AAAI,ACM TOG, IEEE TIP，IEEE TVCG等。他的工作曾获得计算机图形学顶级会议Siggraph Asia 2013新兴技术最佳演示奖，入选2016年年度最佳计算论文之一，以及2019年计算机视觉顶级会议CVPR最佳论文列表（入选率1%），他的团队于2018年11月获得IEEE ICDM 全球气象挑战赛冠军（参赛队伍1700多）。更多细节详见http://mypage.cuhk.edu.cn/academics/hanxiaoguang/

GAMES主页的“使用教程”中有 “如何观看GAMES Webinar直播？”及“如何加入GAMES微信群？”的信息；
GAMES主页的“资源分享”有往届的直播讲座的视频及PPT等。
观看直播的链接：http://webinar.games-cn.org