GAMES Webinar 2024 – 335期(Diffusion和大模型在low-level视觉中的应用) | 夏彬(香港中文大学),陈浩宇(香港科技大学(广州)),孙浩泽(清华大学)
【GAMES Webinar 2024-335期】(视觉专题-Diffusion和大模型在low-level视觉中的应用)
报告嘉宾:夏彬(香港中文大学)
报告时间:2024年8月8号星期四晚上8:00-8:10(北京时间)
报告题目:DiffIR: Efficient diffusion model for image restoration
报告摘要:
扩散模型 (DM) 通过将图像合成过程建模为序列去噪过程,实现了 SOTA 性能。 然而,与图像合成不同,图像恢复(IR)对于生成符合地面实况的结果有很强的约束。 因此,对于 IR,传统的 DM 在大型模型上运行大量迭代来估计整个图像或特征图是低效的。 为了解决这个问题,我们提出了一种高效的DM(DiffIR),它由紧凑的复原先验提取网络(CPEN)、动态IR transformer(DIRformer)和去噪网络组成。 具体来说,DiffIR有两个训练阶段:预训练和训练DM。 在预训练中,我们将真实图像输入 CPEN${S1}$ 中,以捕获紧凑的 IR 先验表示 (IPR) 来指导 DIRformer。 在第二阶段,我们训练 DM 仅使用 LQ 图像直接估计与预训练 CPEN${S1}$ 相同的 IRP。 我们观察到,由于 IPR 只是一个紧凑向量,因此 DiffIR 可以使用比传统 DM 更少的迭代来获得准确的估计并生成更稳定和真实的结果。 由于迭代次数很少,我们的DiffIR可以采用CPEN$_{S2}$、DIRformer和去噪网络的联合优化,这可以进一步减少估计误差的影响。 我们对多个 IR 任务进行了广泛的实验,并在消耗更少的计算成本的同时实现了 SOTA 性能。
讲者简介:
夏彬, 香港中文大学博士生, 导师为贾佳亚。他的研究方向为AIGC,LLM,模型压缩,图像复原。
讲者主页:https://zj-binxia.github.io/
报告嘉宾:陈浩宇(香港科技大学(广州))
报告时间:2024年8月8号星期四晚上8:10-8:25(北京时间)
报告题目:RestoreAgent: Autonomous Image Restoration Agent via Multimodal Large Language Models
报告摘要:
这篇文章提出了一种新的图像复原的解决方案,利用多模态大语言模型来解决现有图像复原技术在处理复杂场景中多重退化问题时面临的诸多挑战。文章首先深入分析了在处理包含多种退化的图片时,all-in-one模型存在的局限性,以及人为挑选恢复模型和不同恢复任务执行顺序的局限性,从而提出了新的智能图像复原系统:RestoreAgent。RestoreAgent能够自主评估图像退化类型和程度,智能确定最佳复原任务序列,为每个任务动态选择最优模型,并自动执行整个复原流程。RestoreAgent展现出卓越的决策能力,其决策性能要优于人类专家的决策结果,在处理多重退化图像时的表现显著优于现有all-in-one方法的性能。并且,该系统具有极强的灵活性和可扩展性,能够快速适应新的任务和模型,也可以根据用户的偏好来调整模型的决策目标。
讲者简介:
陈浩宇,香港科技大学(广州)博士生,导师为朱磊教授。他的研究方向主要为图像恢复,多模态模型和图像生成。
报告嘉宾:孙浩泽(清华大学)
报告时间:2024年8月8号星期四晚上8:25-8:40(北京时间)
报告题目:CoSeR: Bridging Image and Language for Cognitive Super-Resolution
报告摘要:
现有的超分辨率(SR)模型主要侧重于恢复局部纹理细节,往往忽略了场景中的全局语义信息。这种疏忽会导致在恢复过程中遗漏关键的语义细节或引入不准确的纹理。在我们的工作中,我们引入了认知超分辨率(CoSeR)框架,赋予 SR 模型理解低分辨率图像的能力。为此,我们将图像外观和语言理解结合起来,生成认知嵌入,这不仅能激活大型文生图扩散模型中的先验信息,还能帮助生成高质量的参考图像。为了进一步提高图像保真度,我们提出了一种名为 “All-in-Attention ”的新型条件注入方案,将所有条件信息整合到一个模块中。因此,我们的方法成功地恢复了语义上正确且逼真的细节,在多个基准测试中展示了最先进的性能。
讲者简介:
孙浩泽目前就读于清华大学,师从杨余久教授,同时在华为诺亚方舟实验室实习。目前感兴趣的研究方向包括图像修复、基于Diffusion的图像生成与编辑、多模态模型等。
讲者主页:https://scholar.google.com.hk/citations?user=aB2KirIAAAAJ&hl=zh-CN&oi=ao
主持人简介:
徐晓刚目前就职于华为2012实验室中央媒体院。此前就职于之江实验室,担任研究专家(PI),同时兼聘于浙江大学计算机科学与技术学院CAD国家重点实验室,担任新百人计划研究员,主要研究方向为多模态内容生成与修复。徐晓刚于2018年在浙江大学信息工程专业获得工学学士学位,于2022年在香港中文大学获得博士学位,师从香港中文大学IEEE Fellow贾佳亚教授。徐晓刚在人工智能和计算机视觉领域累计发表共4篇国际顶级期刊论文(均为CCF-A论文,其中3篇为第一作者),22篇国际顶级会议论文(其中11篇为第一作者,3篇为通讯作者),多项中国发明专利(落地于阿里巴巴等公司平台),并且担任多个国际学术会议(包括CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, AAAI等)和国际学术期刊(包括TPAMI, IJCV, TCSVT, TMM, TNNLS等)的审稿人和程序委员会。主持和参与之江实验室优秀青年科学基金,浙江省鲲鹏计划,浙江省自然科学基金重大项目等。
主持人主页:https://xuxiaogang.com/
GAMES主页的“使用教程”中有 “如何观看GAMES Webinar直播?”及“如何加入GAMES微信群?”的信息;
GAMES主页的“资源分享”有往届的直播讲座的视频及PPT等。
观看直播的链接:https://live.bilibili.com/h5/24617282