AI HDR综述

本文主要基于对2021年的一篇AI HDR综述文章解读,同时其中加入文章引用的各类核心方法的Pipline解读,原汁原味文章请看:
《Deep Learning for HDR Imaging: State-of-the-Art and Future Trends 2021》

目录

任务定义
任务分类
评价指标
Supervised Image HDR:
Multi-Exposure HDR
基于光流配准的
直接特征拼接的方法
关联性引导的特征匹配
基于图像翻译的对齐
静态场景多曝光融合
single-Exposure HDR
直接使用LDR学习HDR图像
生成伪LDR序列之后进行HDR重建
计算效率高的学习方法
学习神经传感器
Deep HDR imageing with other Tasks
Deep HDR + FaceSR
HDR + 降噪
HDR + Deblurring
使用新型策略的HDR
unsupervised HDR
GAN-based HDR
transfer learning-based HDR
meta learning-based HDR
attention-based HDR
Deep reinforcement-based HDR
其他输入形式:
视频HDR
深度3D全景高动态范围成像洞察
基于深度立体视觉的HDR成像
新型传感器进行深度HDR成像
神经形态相机
神经形态的相机的图像HDR
神经形态增强的HDR成像
红外热感应相机
IR HDR image reconstruction
IR image fusion
基于深度模数相机的HDR成像

HDR任务定义

我们把一个场景的最大亮度与最小亮度的跨度称作动态范围, 而High Dynamic Range(HDR)
是指既有非常明亮的物体,也有非常黑暗的物体,亮度跨度很大. 反之即为Low Dynamic Range(LDR)
而HDR任务主要的目的就是将低动态范围(LDR)图像,转化为高动态(HDR)图像,土话就是让亮的地方贼亮,暗的地方贼暗,细节还贼多。

任务原因:

相机成像显示亮度范围有限,拍摄照片无法显示真实世界亮度范围,如下图真实世界亮度范围可能为0-24(实际真实世界从黑夜到太阳光的Luminance范围为 $10^{-6} – 10^9cd/m^2$, 如上图,经过人眼转化之后范围依然巨大),实际拍摄的LDR图像显示的有效范围可能只有0-10(实际一般图像都是8位,灰度从0-255共计256个等级),无法真实反应真实世界的亮度范围,需要经过HDR算法处理之后,将LDR图像映射为HDR图像,还原真实世界亮度,如下如所示。

问题定义

LDR成像

x表示LDR图像, Δt表示曝光时间,E场景辐照度,CRF(camera response fucntion,成像过程)

HDR Mapping

y表示Mapping后得HDR图像,M表示Mapping function,  θ mapping funciton的参数,X表示一系列不同曝光下得LDR图像xi, 常见的方法分为sing-exposure和Multi-exposure

AI HDR任务分类

传统方法:主要使用特殊的HDR摄像机来捕获HDR图像,另一种选择是使用渲染工具从虚拟环境创建HDR。特点是,贵!!!

近几年的SOTA主要都集中在DL-based HDR算法,主要是利用CNN或者GAN从LDR图像构建HDR图像,一般包括单曝光HDR,多曝光HDR。实际上,按照输入类别, 曝光数量, sensor类型, 任务类型, 学习策略, Loss设定, AI HDR算法可以分为很多不同的细分领域,如下图:

评价指标

MSE(均方误差)

PSNR(Peak Signal-to-Noise Ratio, 峰值鑫噪比):描述GT和生成HDR图像之间的差异情况,

SSIM(Structural similarity,  结构相似度)

将图像拆分为 亮度 (luminance)、对比度 (contrast) 和结构 (structure),分别比较其相似性

HDR-VDP-2

HDR-VDP-2 [52]是HDR-VDP [53]的更新版本,被视为测量HDR图像视觉质量的有效指标

基于深度学习的评估指标

[55]、[58]、【59】是评估生成HDR图像感知质量的全参考方法。相比之下,[48]、【56】是通过量化从DNN中提取的低层和高层特征来测量重建的HDR图像质量的非参考方法。

Supervised Image HDR:

Multi-Exposure HDR
基于光流配准的
直接特征拼接的方法
关联性引导的特征匹配
基于图像翻译的对齐
静态场景多曝光融合
single-Exposure HDR
直接使用LDR学习HDR图像
生成伪LDR序列之后进行HDR重建
计算效率高的学习方法
学习神经传感器

Multi-Exposure HDR

基于光流配准的

输入高,中,低曝光的LDR图像,输入到光流算法或网络进行对齐(一般将中曝光图像作为参考帧),之后送到融合网络进行重建,如上图a。
[9]使用经典的光流算法,将LDR图像对齐,然后输入到DNN,融合重建HDR图像。[63]也按照这种pipeline,为了丰富图像信息,他们的方法以伽马校正获得的LDR和HDR图像序列作为不同尺度的输入,并采用三个子网络获得相应的HDR图像。

[64][39]认为,经典的光流算法可能会导致相当大的失调误差,改用SoTA光流网络(如下图),进行图像对齐。

缺点:大规模前景运动场景下,效果比较差,很容易出现重影

直接特征拼接的方法

光流算法在大规模前景运动场景下,效果比较差。因此,[49]提出了一个代表性框架,包括三个编码器网络、一个合并网络和一个解码器网络,编码器将不同曝光的LDR图像编码到潜在特征空间中,然后特征拼接送入到融合网络,以学习对齐的特征。最后,解码器重建HDR图像,如图上图b

[66]中采用了类似的策略,不过添加了LDR子网,用来恢复与HDR图像相对应的三个静态LDR图像。LDR图像的反馈(即LDR图像的L1 loss),即循环重建,在正向路径上增加了更多的约束,这有利于恢复HDR图像中的运动区域。

[67]单个编码器设计用于映射不同曝光的原始彩色滤波器阵列(CFA)数据,以学习中间LDR特征。
[68]还使用了三个编码器来提取不同曝光下三个LDR图像的特征。提取的特征被级联并馈送到合并网络中。这种方法的一个关键贡献是注意力掩码,旨在使网络能够以相当大的运动集中在场景中的部分,以避免解码器后的重影效果。
[69]认为使用单个编码器不能充分利用特征中的多尺度上下文信息,因此,他们提出了多尺度LDR编码器,以提取不同尺度的视觉特征。提取的特征在馈送到合并网络之前,通过残差学习在不同的尺度上融合。

总结:图像直接编码,然后特征拼接之后进行融合,主要是特征提取方式和融合方式有略微区别。优点是简单直接,重影问题可以缓建,但是在高曝光区域生成的细节可能比较假(模型直接猜的)

关联性引导的特征匹配

另外一些DL方法探索不同曝光和运动下,LDR图像之间的关系,以此来解决动态场景中HDR重建重影问题,最具代表性的就是注意力机制

[33]参考了【49】pipepine。但是在编码阶段应用注意力模块,以实现更好的特征对齐。特别是,注意力模块有助于排除由单个编码器中的失调和饱和引起的无用信息。这是通过将高曝光和低曝光LDR图像和参考LDR帧送到注意力模块,然后获得注意图,以细化非参考LDR图像的特征图。因此,排除了未对齐和过曝的非参考LDR图像,防止了无用的特征进入合并网络

[70][61]在编码阶段使用金字塔模块探索了LDR图像特征的对齐:【70】中的方法提出了多尺度金字塔特征对齐策略,在处理运动和视差方面更加灵活和稳健;[61]中的方法探索了LDR图像中像素自相似性的相互注意,还设计了一个双激励块,用于在合并阶段重新校准空间和通道上的特征。

【75】提出的方法在合并阶段而不是编码阶段使用非局部模块(self-attention),编码后的特征直接级联并馈入合并网络。

[76]提出的方法仅使用两个LDR图像(一个欠曝光,一个过曝光),并采用同形网络(编码器)将欠曝光图像扭曲到过曝光图像(其实就是学一个4点的转换坐标,再进行一个warp)。然后,在送到合并网络之前,使用注意力模块来减少未对齐的特征。

在NTIRE 2021 HDR挑战赛【60】中,ADNet [77]提出将LDR图像与金字塔、级联和可变形(PCD)模块对齐,并将其与空间注意力模块自适应融合。

总结:说白了就是在原先encoder之后,添加一个注意力机制,利用注意力机制挖掘LDR与参考帧之间的关系,去掉一些无关紧要的信息之后,再进行融合重建。优点:去重影效果比较好,但是在高饱和区域生成的细节不够逼真,但是计算量比较大。

基于图像翻译的对齐

基于光流的HDR成像方法往往会产生相当大的伪影,而端到端特征级联的方法在高饱和区域生成的细节不够逼真

一些研究试图在参考图像的监督下使用DNN将低曝光和高曝光图像转换为参考LDR图像,如图3d所示。Rosh等人提出的方法。[71]提出一种代表性的方法,首先利用图像转换网络将EV-1和EV+1的图像转化为两个类似参考帧的LDR图像,之后,将三张LDR图像送到合并网络以重建HDR图像。(注:分阶段学习)

[78]在【71】基础上,使用encoder-decoder网络结构,生成精确对齐的多曝光LDR图像,并且端到端的训练对齐和合并

静态场景曝光融合

如上图e描述的方法,在静态场景下不需要进行配准,主要是在不同曝光下合并LDR图像,并解决重建的伪影和纹理细节丢失问题。MEF是一种合并多曝光图像的方法,被广泛研究用于图像增强和HDR成像。

[72],是静态多曝光图像融合的代表性学习方法。为了实现这种融合,DeepFuse收集了大量的多曝光图像堆栈数据集用于训练,使用无参考图像质量损失函数,减少了对GT图像的需求

核心是无监督的Loss设计方式,借助SSIM(结构相似性)框架定义图片信息,包含structure (s), luminance (l) and contrast (c)

整体input的c和s表示为:

最终每个patch的图像信息为:

最终Loss设计为衡量input图像$y^$和输出图像$yf$之间的相似性:

许多其他研究[42]、[43]、[73]都是基于[72]这个baseline做一些扩展。MEF-Net[73]可以融合任意分辨率和曝光的静态LDR图像,它主要将输入图降低分辨率(LR)然后送到网络中进行权重图预测,将单图像超分辨率(SISR)和HDR成像结合在一起。使用引导滤波器联合上采样预测的权重图。最终HDR图像是通过与高分辨率(HR) LDR图像的加权融合计算的。[43]MEF-GAN使用了基于GAN的多曝光图像融合,由于多曝光图像的亮度随LDR图像中空间位置的变化而变化很大,因此在生成器中采用了自注意机制来学习LDR图像的注意力信息。FusionDN [42]扩展了DeepFuse,并提出了一个无监督和统一的密集连接网络,用于图像融合任务,包括LDR图像融合。给定两个LDR图像,FusionDN学习生成融合HDR图像,扩展点在于根据两张图像信息,会赋予两个图像不同的权重

潜力和挑战

多曝光HDR2个关键的步骤是LDR图像对齐和融合

使用光流对齐LDR图像是一种传统的方法,但是在大前景运动场景中效果较差

相比之下,相关性引导的特征对齐更灵活和有效,因此,SoTA方法主要探索特征的相关性,例如,使用注意力机制来排除未对齐的特征。然而,相关性引导的特征对齐对过曝区域敏感,这往往会因为去除特征而导致细节的丢失。

相关性引导方法有些在在编码阶段使用注意力【33】,部分在合并阶段学习相关性【75】,还需要更多的理论研究来确定最适合学习相关性的阶段。

这一研究领域仍然存在许多挑战。

首先,图像或特征对齐是难点。LDR图像相关性学习比较有前途,但是需要较大计算成本。

其次,DNN训练依赖大量标注数据。在多曝光HDR成像中,获得用于场景捕捉的相机和设备相对昂贵。因此,未来的研究需要研究数据高效的学习,值得探索的方向是迁移学习【83】或半监督学习[84], [85]。

第三,大多数SoTA方法推理延时都比较高。然而,HDR成像应用中对实时性要求比较高。因此,开发基于DL的轻量级框架以平衡性能至关重要。

single-Exposure HDR

多曝光HDR有局限性,在运动场景下必须对多帧图像进行配准对齐,很容易产生伪影,而单曝光就不需要,单曝光HDR重建的明显优势是,它可以处理标准相机捕获的图像,甚至恢复传统LDR内容的全部动态范围[47]。因此,单曝光HDR重建引起了研究界的关注。

直接使用LDR学习HDR图像

最直接的方法是使用编码器-解码器网络结构直接从单个LDR图像中学习,如图4a所示。[10]是从单个LDR图像重建HDR图像的代表性方法,如下图主要包含一个decoder和encoder端到端使用单帧LDR图像来重建HDR图像,注意整个架构多了一些Skip connection,目的是在decoder中减少encoder丢失的信息。数据构建是从大量的HDR video中提取的HDR图像,LDR图像是利用虚拟相机基于HDR图像生成的,收集了一堆相机相应函数(CRF, z=f(E·t),z为输出图像,E为辐照量,t为曝光时间),发现sigmoid接近这些响应曲线的均值,所以最后使用sigmoid来代替相机函数。

Loss改进

桑托斯等人。[47]发现[10]的方法在曝光良好区域和饱和区域使用了相同的卷积核,会导致在训练期间出现模糊效果,同时会导致出现棋盘效应(checkerboard artifacts)和光晕伪影。为了解决这个问题,他们的方法屏蔽饱和区域,从而减少这些区域的特征的贡献,同时,还引入了感知损失。[88]发现,使用重建损失,例如均方误差(MSE)损失,通常会导致模糊和语义细节的丢失,为了解决这些问题,增加了感知损失和对抗损失,以提高感知质量。[89]中的方法还提出了一种新的余弦相似性损失,对HDR图像进行归一化,并分配HDR图像的像素值。

[86]利用了多尺度自动编码器体系结构,旨在从LDR图像中学习不同级别的细节。[87](MIT&Google)中的方法提出了一种基于DNN的方法,学习高分辨率HDR成像的局部和全局特征,文章使用使用两个分支进行处理,分支1为低分辨率分支,降采样后利用local和global信息学习小图仿射变化系数A;分支2利用高清图生成灰度导图g,基于1的变换系数A加导图g,生成大图的变换系数A’,然后利用A’结合输入大图合成最终的大图,整个方案兼顾性能和效果

生成伪LDR序列之后进行HDR重建

单曝光HDR重建很依赖高质量的训练数据。[36]之前提出一个很有代表性框架,使用单帧LDR生成多帧低曝和过曝LDR,(训练数据是使用相机响应函数(CRF)从HDR图像生成假的LDR图像堆栈(低曝和过曝))。这种方法产生自然色调,而不会引入可见噪声或饱和区域的颜色。

[38]在[36]基础上,使用双分支网络,顺序生成三个上曝光和三个下曝光的LDR堆栈,获得六个LDR图像并合并以生成HDR图像(随着深度增加EV值变化也越大)。[11]、[20]也提出了类似的办法,区别是,多曝光堆栈是使用GAN生成的。另外[40]收集了一个数据集,按照上述做法,对一张LDR图像,通过改变曝光值(EV)生成的向上和向下曝光LDR堆栈图像。

计算效率高的学习方法

上述许多方法是通过增加网络深度或添加更多的损失可以提高HDR图像的质量,但同时也会增大计算量。Khan等人提出了FHDR [12],利用feedback机制的强大能力提升合成效果,提出了基于RNN的框架(常见的CNN+RNN架构)。此方法低层特征在多次迭代中由高层特征引导,导致更好的重建效果,且参数较少(**训练时候每次迭代t,会将前一次输出的FBBt-1输入到当前的FBBt,即FBBt=FBB(FBBt-1·Fin),相当于训练时候添加额外指导信息。**推理时候没有迭代信息,个人感觉实际作用可能不大,鉴于RNN特性,训练时候可能还会变慢)。

[90]添加了额外一部来强化学习过程,该方法首先学习生成HDR图像,然后通过校正网络再反过来生成LDR图像。由于训练后可以移除校正网络,因此没有额外的推理成本。

在相机成像管道中,三维查找表(3D LUTs)对于操纵照片的颜色和色调非常重要,因此[15]提出了学习图像自适应的3D LUTs的一个小型网络,以有效地重建高分辨率HDR图像,该方法可以在更少的计算成本下产生不错的结果(和前面[87]相似,低分辨率学习权重,然后对高分辨率进行融合处理,Loss采用了triplet Loss)。

学习神经传感器

在单次曝光HDR成像流程中,最大的挑战是正确地恢复LDR图像的饱和区域。前述方法通过从CRF数据库生成LDR图像、直接建模反向CRF或设计高效网络来解决这个问题。然而,这些方法没有考虑传感器内部的问题。最近的方法尝试使用DNNs模拟传感器处理,这是HDR成像中一个待探索的方向。[91]引入了一个光学编码器来编码镜头的光学HDR信息,同时设计了一个电子解码器网络来解码光学编码信息以重建HDR图像。[94]中提出了类似的方法,设计了一种调制方法来学习空间光学编码信息,整个框架是一个端到端的学习方法。

[92]引入了一个差分神经传感器来优化每个像素的快门函数,由神经网络联合学习,建模曝光函数使传感器能够捕捉模糊的LDR图像,然后用于重建HDR图像。

需要专门的传感器,非主流相机算法, 感兴趣可以深入了解。

潜力和挑战

深度单次曝光HDR成像具有几个优点。

首先,单次曝光HDR成像排除了LDR图像的对齐问题,不太受鬼影影响。

其次,它在应用中更加灵活,简化了数据收集。

第三,计算效率更高(不一定,如果生成伪LDR,再融合,性能可能和多曝光差不多)。

这个方向存在几个挑战。

首先,难以估计LDR图像的饱和区域。虽然学习光学传感器[91]、[92]、[94]可以改善饱和像素的估计,但需要更复杂的相机设置和硬件。未来的研究可以简化硬件设置和学习框架。

此外,现实中复杂的饱和像素仍然难以使用CRF数据库或>学习CRF来处理。同时结合相机成像流程和CRF,加强对LDR图像中饱和像素的更稳健估计可能更有前途。

此外,大多数方法采用像素级损失,如L1损失进行优化。虽然一些方法也在改进Loss,如添加对抗性损失和感知损失来增强感知质量,但这些损失有时会导致不太现实的结果。

Deep HDR imageing with other Tasks

Deep HDR + SR
HDR + 降噪
HDR + Deblurring

Deep HDR + SR

目标是直接从low resolution(LR) LDR image 构建 high-resolution(HR)的HDR 图像

SR与HDR成像问题类似,都是不适定问题(ill-posed problem), LR图像HR图像经过复杂的退化降低了分辨率,导致高频细节的丢失, LDR图像相比HDR图像,也是复杂变化后导致的 对比度和纹理细节的局部变化的缺失。因此,通过联合学习HDR+SR,同时在增强空间分辨率的同时恢复高频细节、对比度和信号幅度理论是可行的。方法分为两类:顺序学习(a,b)和联合学习(c,d,e)

顺序学习

大多数方法都顺序连接起来。然而,必须确定先后顺序。

考虑到这个关键问题,[21],[108]研究了模块不同连接顺序对HDR图像SR质量的影响。在[108]中,图像首先被分解成亮度分量(Y)和色度分量(UV),然后,使用了两个框架(HDR-SR和SR-HDR系统)来比较学习效果。结果表明,先对图像Y分量进行HDR,然后仅基于Y分量进行SR,可以获得最好的结果。

缺点:顺序学习会导致误差的累积[21]

联合学习

HDR与SR联合学习是SoTA方法中探索最多的方向[18],[21],[41],[109],[110]。

尽管这些方法有不同的看法,但它们有共同的特点。单曝光HDR与SR。Kim等人[21]提出了一种代表性的联合单曝光HDR和SR框架,如图6c所示。所提出的框架包括LDR图像SR、LR HDR图像重建和通过特征级联进行联合HDR SR。

[41],[110]改进了这个基线,其中一个LDR图像被分解成基础层(illumination)和细节层(reflectance)。随后,训练了两个分支提取的深度特征,最后级联以重建HR HDR图像,如图6d所示。

[18]中添加了一个新的分支,即图像重建模块,以[21]的框架为基础,使用GAN重建HR HDR图像。

HDR + 去噪

在 HDR 图像重建中,需要去除 LDR 图像中的噪声,尤其过曝光和欠曝光区域的噪声

单曝光噪声去除

在HDR图像重建中,可能会出现一些意外的噪声,这些噪声会影响HDR图像的质量。因此,许多现有的SOTA方法试图从HDR图像中去除噪声。 例如,Noise2Noise[113]是一个不需要干净数据的图像去噪框架,该方法不需要干净样本, 训练输入输出均为噪声样本,基于的思路是:Input y+n’ => output y+n”,当数据量足够大时,噪声n始终是随机的,无法学习噪声映射,反而可以使模型学到干净样本y

Gordian 等人[114]使用 RNNs 进行连拍图像去噪,在 HDR 成像中表现更好,特别是在低光条件下。 [115]提出了一个名为空间动态学习网络的HDR图像去噪和量化框架。该工作获得了 Niter2021 Single-Exposure HDR 成像挑战赛第二名。

多曝光噪声去除

Acccougalan 等人[116]提出了一个代表性的框架,用于通过动态场景中的多曝光合并来去除噪声。

类似于 HDR 和 SR[21]的联合 HDR 图像和图像去噪,该方法旨在使用两个分支的网络从欠曝光和过曝光图像中学习。 该方法[117]旨在使用 UNet 从双曝光传感器中重建干净和无噪声的 HDR 视频。 由于缺乏干净的 GT HDR 视频,模糊和噪声是手动生成的。

总结:

针对单曝光HDR图像重建的去噪方法很少,这可能是因为直接将SoTA去噪框架应用于HDR成像时,重建的HDR图像往往会失去细节。
难以对LDR图像中的真实世界噪声进行建模
此外,与HDR成像和SR相似,需要研究顺序和联合学习的有效性

HDR + Deblurring

在极端成像条件下,例如暗场景,长时间曝光经常会导致LDR图像中的模糊效果。因此,学习HDR成像通常必须考虑图像去模糊。

[120]当模糊时,可见光源和明亮的高光区域经常出现为延长的条纹。为此,提出了一个DNN框架,用于从模糊的LDR图像重建HDR图像,(Deblur的核心操作是Max pooling?)

然而,对于单次曝光HDR成像,恢复饱和区域是困难的[91]将单次曝光HDR重建解释为联合训练光学编码器和电子解码器。在该框架中,点由镜头的点扩散函数(PSF)参数化。在推理期间,将模糊的LDR图像馈送到网络以重建HDR图像。类似地,[92]引入了差分神经传感器,以优化逐像素快门函数,以端到端的方式与DNN联合学习。建模曝光函数使传感器能够捕获用于重建HDR图像的真实模糊的LDR图像。

总结:
模糊是深度HDR成像中需要考虑的重要因素。
当前的方法大都限于单次曝光HDR成像,对于动态场景多次曝光HDR成像更具挑战性。
可以将盲图像去模糊方法(例如[121])与HDR重建流水线相结合。

使用新型策略的HDR

unsupervised HDR
GAN-based HDR
transfer learning-based HDR
meta learning-based HDR
attention-based HDR
Deep reinforcement-based HDR

unsupervised HDR

无监督学习减少了对GT数据的需求,对LDR图像融合和HDR图像重建具有很大的潜力。MEF是一种无监督学习,在静态LDR图像融合中得到了广泛的研究,DeepFuse(前面静态多曝光融合一节讲过)是一种代表性的无监督方法,包含三种类型的层:特征提取、融合和重建层。该框架是在没有参考图像的情况下学习的,使用基于SSIM图像质量度量的目标函数,目标函数最大化了融合图像与每个输入图像之间的结构一致性。

[19]和[149]提出了基于GAN的无监督框架,灵感来自CycleGAN,用于学习LDR图像融合。[150]和[151]探索了源LDR图像之间的对应关系。因此,融合输出与源图像之间的相似性被自适应地保留。 无监督LDR到HDR映射。没

有GT数据的HDR成像是具有挑战性的,特别是对于单曝光HDR图像重建。根据我们的调查,目前没有针对单曝光HDR图像重建的无监督方法。对于多曝光HDR成像,Li等人提出了一种代表性方法,称为UPHDR-GAN,以放松配对数据的约束。该框架建立在GAN上,生成器取三个LDR图像,旨在重建一个HDR图像。鉴别器将色调映射图像与未配对的真实HDR图像区分开来。此外,感知损失用于保留语义信息。

总结:

大多数无监督方法针对的是FEM-HDR,直接的LDR到HDR映射方法很少。虽然可以在没有使用配对数据的情况下从多曝光LDR图像中重建HDR图像[152],但重建质量比监督方法差。

目前没有针对单曝光HDR成像的无监督方法。

GAN-based HDR

HDR成像的关键问题是学习光强度和局部对比度的真实数据分布,使用L1或L2损失来最小化HDR图像与GT之间的差异无法有效解决问题。相比之下,GAN可以学习真实的数据分布,GAN可以应用于HDR成像:HDR重建网络可以被视为生成器;然后,定义一个鉴别器来区分生成的图像或GT

[13],[155]首先提出添加对抗损失来帮助训练基于UNet的生成器[118]学习reverse ToneMapping。[156]随后采用cGAN[157]来学习高分辨率和高质量的色调映射。考虑到单曝光HDR成像问题不适定性,[158]使用cGAN生成多曝光堆栈。[18]提出了一种基于GAN的HDR和SR方法,其中采用了RaGAN作为稳定训练的基本对抗性损失。所有这些方法都专注于单曝光HDR成像。

[43],[69]将GAN应用于多曝光HDR成像。具体而言,[43]的方法采用欠曝光和过曝光图像,并将它们馈送到两个独立的特征学习分支中,然后将它们连接起来重建HDR图像,鉴别器用于区分融合图像是否来自GT。[69]的方法使用三个LDR图像,类似于基于参考图像的HDR方法,并将它们馈送到多尺度LDR图像编码器中。提取的特征逐渐聚合到更大的尺度,最终连接起来重建HDR图像。

总结

GAN方法训练的稳定性有待提高,特别是当LDR数据分布多样时。

GAN可以实现多曝光HDR图像重建,一般使用单个鉴别器来HDR图像与GT。实际上,额外的鉴别器可以区分LDR图像和HDR图像的局部区域。

attention-based HDR

注意机制使HDR重建网络能够专注于LDR图像中最相关的区域,(前面关联性引导的特征匹配已讲过)

[33]提出了可学习的注意力模块,以指导多个曝光合并过程,注意力模块生成软注意力图来评估重建HDR图像中不同图像区域的重要性。使用注意力指导的特征合并可以有效减少HDR中的ghost。[75]进一步丰富了多曝光合并的注意力指导方法,利用UNet结构[118]中编码器和解码器之间的输入的非局部相关性。非局部块有助于建立不同曝光之间的依赖关系,从而消除HDR成像中的幽灵伪影。为了更好地对齐多曝光LDR图像,[170]提出了一种多尺度上下文注意力模块,以获取多尺度的注意力特征图以进行对齐。相比之下,[171]专注于静态多曝光HDR图像重建,并提出了使用通道级别的注意力,来学习LDR图像中欠曝光/过曝光区域的通道统计信息。

总结:

注意机制对于动态或静态场景的多曝光合并都是有效的

使用注意机制比光流可以减少幽灵伪影

使用注意机制存在对于边缘和纹理较少的LDR图像的限制

增加注意机制的有效性需要更多网络参数,从而增加计算成本

transfer learning-based HDR

迁移学习通过将从相关学习任务中学到的知识转移到目标任务中,这种深度学习策略也被研究用于 HDR 成像。[163]利用迁移学习克服了缺乏足够大的HDR数据集的问题,将知识从 ImageNet 上的图像分类任务转移出来可以显著改善单曝光 HDR 重建。[25]将来自相关大型数据库的学习信息转移到较小的数据库中。

总结:

迁移学习在 HDR 成像中得到的探索较少, 少量工作通过将从图像分类任务中学到的特征转移到HDR成像任务中。

在多曝光 HDR 成像中,多曝光图像仅对齐到参考图像,未对齐图像的视觉信息挖掘不足,可能各LDR之间的相互学习是一个值得探索的方向。

meta learning-based HDR

元学习使得在给定少量特定LDR示例的情况下,可以快速学习HDR成像中的非线性映射。在HDR图像重建中,辐射度和LDR图像的记录像素值之间存在非线性映射[41]。SoTA DL方法,例如[10]、[14],假设单任务学习中存在一致的非线性映射,适用于所有可能的场景。然而,每个场景都有独特的非线性映射。因此,[26]提出了一个元学习框架,其中元参数的基础是学习非线性映射中的共同模式。学习非线性映射以更好地适应特定的HDR图像重建任务是合理的。

总结:

元学习的潜力仍未被开发,虽然[26]使用流行的元学习算法MAML提出了一个框架,但HDR图像存在颜色饱和和伪影问题。

可以将转移学习与元学习相结合,学习更强大的HDR成像的非线性映射。

Deep reinforcement-based HDR

深度强化学习可以有效地学习基于策略梯度的多个局部曝光操作。HDR成像已被用于学习多个局部曝光操作[172], 在单个图像中利用多个局部曝光操作进行HDR图像重建,LDR图像被分解成多个子图像,根据策略网络使用不同的曝光(类似于从单个LDR图像生成多曝光LDR图像堆栈)。为了简化框架,采用对抗学习,其中鉴别器被视为价值函数。这种简单而新颖的强化对抗学习方法在HDR重建效果很好。

总结:

只有一种方法使用深度强化学习,未来的研究应考虑使用强化学习的MEF方法。

其他输入形式:

视频HDR
深度3D全景高动态范围成像洞察
基于深度立体视觉的HDR成像

视频HDR

深度视频HDR旨在从输入的LDR视频中学习清晰的HDR视频,与深度 HDR 成像不同,深度视频HDR关注相对较少,主要原因是视频HDR必须解决时延问题

单交替曝光的视频HDR

[102]用于从具有交替曝光的LDR序列重建HDR视频;它包括两个步骤:1. 使用光流网络将相邻帧与当前帧对齐
2. 使用合并网络来合并重建最终的HDR帧。

[103] 中的方法是另一种直接从LDR视频重建HDR视频的代表性方法,LDR到HDR 的映射类似于单图像HDR方法,然后设计了一个带有3D卷积自编码器的生成器来解决由时间不一致性引起的闪烁问题。[18],[41]目的是做超分辨率的视频HDR,但是只考虑单曝光 HDR 成像流程,而不考虑时间上的一致性。

具有多个交替曝光的视频HDR

尽管在深度多曝光 HDR 成像方面取得了显着进展,但具有多个交替曝光的深度视频HDR仍然具有挑战性。[44]和[45] 提出了两种代表性视频 HDR 方法。[44] 中的方法基于粗到细的框架,使用多个交替曝光作为输入。在粗略重建阶段,使用光流算法将相邻帧与参考帧对齐。在细化阶段,使用可变形卷积将相邻帧的特征对齐到参考帧上。最后,将特征在时间上融合以重建 HDR 视频。

[45] 中的方法使用三曝光四像素 Bayer 传感器。传感器将每个彩色 Bayer 滤波器空间扩展到四个相邻像素。该方法采用特征融合模块,在特征空间中合并特征以处理运动模糊。提出了一种基于注意力的时间去噪模块,以减少噪声并保持时间上的一致性。同时,设计了一个超分辨率模块以增强空间分辨率。

总结

使用DL进行视频 HDR 的研究仍然很少。

通常使用光流将相邻帧与参考帧对齐;但会导致饱和区域中的误差。

DL的HDR视频重建方法,计算成本比较高

阻碍HDR视频重建进展的因素是缺乏高质量的数据集

新型传感器进行深度HDR成像

神经形态相机
神经形态的相机的图像HDR
神经形态增强的HDR成像
红外热感应相机
IR HDR image reconstruction
IR image fusion
基于深度模数相机的HDR成像

不太主流,感兴趣可以简单了解下。

神经形态相机

神经形态相机是一种新型传感器,其具有比一般相机更高的动态范围(140dB相比60dB),这对于HDR成像具有很大的潜力和优势。在很多暗光环境下,普通相机很难捕捉到视觉信息,但是event camera可以清晰的反映物体边缘信息,这一独特优势使它们在机器人、自主驾驶和可穿戴应用中具有潜力。如下图基于事件的深度HDR方法,事件相机比基于帧的相机具有更好的HDR能力。(a)事件到HDR图像重建。(b)事件引导的HDR图像重建[22]。

红外热感应相机

IR相机在低光条件下具有独特的HDR能力。因此,将IR图像转化为HDR彩色图像可能是提高夜间场景感知的好方法。然而,由于IR图像是灰度的,仅反映物体轮廓,将IR图像转化为HDR彩色图像具有挑战性。

[24]提出的方法是一个代表性框架,其中使用粗到细的生成器以监督方式保留IR图像的纹理细节并生成彩色HDR图像,如图a所示。相比之下,[139]中的IR-GVI假设没有GT彩色HDR图像可用。因此,IR-GVI提出了一种无监督方法,将IR图像映射到HDR灰度图像并对这些图像进行着色,如图b所示。

另一种方向是将红外和LDR图像融合生成彩色HDR图像[141](类似于多曝光HDR成像流程)如图c所示,([17],[142],[143]中使用GAN)。第二种策略基于特征融合[143],[144],如图d所示。[143]中的方法既使用图像内容融合又使用特征融合。

总结:

使用GAN从红外图像生成HDR图像是最常见的方法,但是一般比基于融合的方法差,因为单纯的红外图具有有限的视觉细节

基于红外的方法,大多数只能重建灰度HDR图,灰度图恢复彩色信息依然具有挑战性

参考:

Deep Learning for HDR Imaging: State-of-the-Art and Future Trends 2021
https://zhuanlan.zhihu.com/p/33639467

​ 

Read More 

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *