多模态信息指导的开放世界小样本图像识别 - nlp

Few-shot learning (FSL) 在机器学习领域具有重大意义和挑战性，是否拥有从少量样本中学习和概括的能力。

传统的小样本图像识别模型大多基于封闭世界的假设，即目标域测试集必属于训练类别。但是，实际应用场景往往不服从这个假设，在开放世界的假设下，模型需要处理测试集中的未知样本（例如小样本开放集识别和小样本类别增量式识别等）。在测试阶段，模型需要侦测出未知类别的样本，同时也要正确区分已知类别的样本，甚至再进一步学习未知类别的样本。如何利用多模态数据（图像，文本等）提升模型对未知类别样本的侦测能力和对已知类别样本的区分能力，同时避免灾难性遗忘是本课题探究的重点问题。

# 传统小样本学习 Few-shot Learning

Few-shot learning (FSL) 在机器学习领域具有重大意义和挑战性，是否拥有从少量样本中学习和概括的能力。

# 数据增强

提高训练样本数量和增强数据多样性的直观方法。但是对于 FSL 任务来说，简单的图像旋转、翻转、裁剪、增加噪波并不有效，因此会采取一些其他的方法。比如增加伪标签、使用 text-to-image 模型等。

DiffAlign : Few-shot learning using diffusion based synthesis and alignment

# 元学习

学习如何学习，即开发出一种适用于新任务的通用学习策略。

# 基于度量

基于度量的一般目标是学习相似度度量 S，在该标准下，相似样本对可以获得较高的相似度得分，而非相似对则获得较低的相似度得分。衡量相似度的标准可以使简单的距离测量，也可以是复杂的网络等。

Prototypical Networks for Few-shot Learning
Prototypical Networks 学习一个度量空间，在这个空间中，可以通过计算到每个类的原型表示的距离来执行分类。它反映了一种更简单的归纳偏差，这在有限数据的情况下是有益的，并且取得了很好的结果。并且使用一些简单的设计决策可以产生比最近涉及复杂架构选择和元学习的方法的实质性改进。
N 为训练集中的样例数，K 为训练集中的类数，Nc <K 为每 episode 的类数，Ns 为每个类的支持 example，Nq 为每个类的查询 example。RANDOMSAMPLE (S, N) 表示从集合 S 中均匀随机选择的 N 个元素的集合，不进行替换。
此方法的度量为计算当前所学习到的类别原型向量与输入的新的样本的 embedding 在这个特征空间上的距离，取与样本距离最近的类别原型所代表的类别为样本的预测类别。具体的分类器构造方式是构造一个与特征空间中的距离函数成反比的 softmax 函数。
DN4: Revisiting local descriptor based image-to-class measure for few-shot learning
局部特征描述子 + image-to-class 度量，一张图片可以由同类别的其他图片的部分特征组合出来。解决一张图片信息粒度大类别信息丢失，和同类不同图像差异大的问题。
并非提取图片的完整特征，而是提取部分特征信息，比如图中三个不同的颜色就是三个不同的特征向量，在文章中被称为局部描述因子，并且以此为度量，用朴素贝叶斯最近邻算法计算。
该方法的创新点在于：基于度量学习的小样本学习算法中的图像级别的特征向量，改为局部描述子；将图像与图像之间的相似性度量，通过求和方式改为图像与类别之间的相似性度量。

# 基于优化

MAML: Model-Agnostic Meta-learning for Fast Adaptation of Deep Networks

适用于任意基于梯度下降方法的元学习模型，可用于解决分类、回归和强化学习等任务。可良好地适应新的样本，但是不过度拟合。通过训练模型的初始化参数达到最好的效果，可以和 CNN， RNN 轻易结合。

require1：对于大量 task 学习，得到 task 的分布，获得泛化能力。面对新的任务时，可以快速拟合
require2：随机参数，根据损失率调整参数

# 预训练 + 微调

# 开放世界小样本学习

# 跨域小样本学习

A broader study of Cross-Domain Few-Shot Learning

区别：传统小样本识别选取与新类相同域的基类，跨域小样本识别则在新类与基类域间有较大转换。

# 小样本开放集识别 FSOR

Glocal Energy-based Learning for Few-Shot Open-Set Recognition

本研究分为两个 branch，classification branch 负责将 sample 分类到闭集中，energy branch 负责精确评估开放集的可能性。考虑了类和像素特性，global energy score 用于学习 class-wise feature，local energy score 用于学习 pixel-wise feature。

# 通用小样本识别

Learning Adaptive Classifiers Synthesis for Generalized Few-Shot Learning

区别：在少量样本的情况下学习尾部类别，同时对头部类别进行分类。