CVPR Oral:我给大家表演一个无中生有|北航商汤耶鲁

层级样本增强(LSE):解决样本同质化问题
在一些无数据量化方法中,合成数据的所有样本都是通过同样的目标函数被优化的,也就是直接将网络每层的损失累加来优化所有样本。

这就导致了样本的特征分布统计量趋于中心化,出现样本层面上的同质化现象,而真实数据往往是分散的。

为解决这一问题,研究团队提出了一种层级样本增强的方法(LSE)。

对一个batch中每个合成图像的损失函数,进行分别设计,从而增强每个样本对于特定层的损失。

具体地说,对于具有N个批归一化层的网络,可以提供N个不同的损失项,并将它们中的每一个应用于特定数据样本。

假设每次生成N个图像,即批大小设置为N,和模型中的批归一化层的个数相同。

定义一个增强矩阵:XLSE=(I+11T),

其中I是一个N维单位矩阵,1是N维全1列向量,L是包含每层损失项的向量。那么该批次的损失函数定义为:L=1T(XLSE·L)/N

其中XLSEL是N维列向量,其第i个元素表示该批次中第i个图像的损失函数。因此,该批次的每个样本都被施加唯一的损失项,对特定层的损失项进行了增强。

对于具有N个批归一化层的网络,这一方法可以同时批量生成各种样本,每种样本在特定层上进行增强。

采用SDA方法获得的包含每层损失项的向量,将L替换为LSDA,从而将SDA方法与LSE方法结合。

通过上述两种方法,解决了生成样本的同质化问题,并且增强了多样性。

为了验证该多样化样本生成方法在不同网络架构,数据集和不同量化位宽上的效果,研究团队在ImageNet数据集,使用各种模型与离线量化方案进行了实验。

结果表明,在ResNet-18和ResNet-50上,DSG在各种比特设置下优于ZeroQ,尤其是在较低比特下。在某些设置下,甚至取得了超过真实数据的结果。

采用各种离线校准方法时,DSG相比ZeroQ有一致的性能提升。

为了进一步验证DSG的有效性,研究团队还测试了使用最先进的离线量化方法(AdaRound)时的性能。实验中也使用了Label以及Image Prior方法。

结果表明,DSG依然带来了性能上的提升。

事实表明,DSG在各种网络训练架构和各种离线量化方法中表现出色,尤其在超低位宽条件下,效果大大优于现有技术。

北航刘祥龙教授团队近年来围绕模型低比特量化、二值量化、量化训练等方向做出了一系列具有创新性和实用性的研究成果。包括:国际首个二值化点云模型BiPointNet、可微分软量化DSQ、量化训练、信息保留二值网络IR-Net等,研究论文发表在ICLR、CVPR、ICCV等国际顶级会议和期刊上。

商汤研究院-Spring工具链团队致力于通过System+AI技术打造顶尖的深度学习核心引擎。开发的模型训练和模型部署工具链已服务于公司多个核心业务。团队在量化模型的在线/离线生产、部署对齐、标准工具等方向有着明确的技术规划。

论文共同第一作者张祥国,北京航空航天大学二年级硕士生,主要研究方向为模型量化压缩与加速、硬件友好的深度学习,曾作为第一作者发表计算机视觉顶级会议(CVPR)一篇。

论文共同第一作者秦浩桐,北京航空航天大学博士二年级,主要研究方向为模型量化压缩与加速、硬件友好的深度学习。曾作为第一作者发表顶级会议、期刊(ICLR,CVPR,PR)共4篇。

论文地址:https://arxiv.org/abs/2103.01049

刘祥龙教授团队主页:http://sites.nlsde.buaa.edu.cn/~xlliu/

THE END
喜欢就支持一下吧
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容