N-Shot学习:用最少的数据训练最多的模型。

作者| Heet Sankesara

田字一中(郑州大学)和野调(江苏科技大学)

点评|李唐,皮塔

如果把AI比作电,那么数据就是创造电的煤。

不幸的是,正如我们看到可用的煤炭是消耗品一样,许多人工智能应用程序很少或没有数据可访问。

新技术弥补了物质资源的不足;还需要新的技术来保证程序在数据很少的情况下正常运行。这正在成为一个非常热门的领域,核心问题:N-shot学习。

1.n次学习

你可能会问,什么是镜头?好问题。shot只使用一个样本进行训练。在N-shot学习中,我们有N个训练样本。“小样本学习”这个术语中的“小”通常在0到5之间,也就是说,训练一个没有样本的模型叫做零拍,一个样本就是一拍学习,以此类推。

1-1为什么需要N拍?

我们在ImageNet中的分类错误率小于4%。我们为什么需要这个?

首先,ImageNet的数据集包含许多机器学习的例子,但在医学成像、药物发现和AI可能至关重要的许多其他领域,情况并非总是如此。典型的深度学习架构依赖于大量的数据训练来获得可靠的结果。例如,ImageNet需要训练数百张热狗图像,才能判断一张新图像是否是热狗。有些数据集,像7月4日庆典后冰箱里没有热狗,非常缺乏图像。

机器学习的很多案例数据非常匮乏,这也是N-Shot技术发挥作用的地方。我们需要训练一个深度学习模型,有几百万甚至几十亿个参数(都是随机初始化的),但是可以用来训练的图像不超过五个。简单来说,我们的模型必须用非常有限的热狗图像进行训练。

处理这么复杂的问题,首先需要知道N拍的定义。

对我来说,最有趣的子领域是零拍学习。该领域的目标是在没有训练图像的情况下对未知类别进行分类。

在没有任何数据可用的情况下,如何训练和学习?

想想这种情况。你能给一个未知的物体分类吗?

夜空中的仙后座(来源:/constellation/仙后座)

可以,如果你对这个物体的外观、属性、功能有足够的了解,就可以实现。想想你小时候是怎么理解这个世界的。晚上知道火星的颜色和位置后,就可以在夜空中找到火星。或者你可以通过知道仙后座基本上是天空中一个变形的‘W’来识别仙后座。

按照今年NLP的趋势,零射学习会变得更有效(/ten-trends-in-deep-learning-NLP/# 9-Zero-shot-learning-will-been-more-effective)。

计算机使用图像的元数据来执行相同的任务。元数据只是与图像相关联的功能。以下是这方面的几篇论文,取得了优异的成绩。

在一次性学习中,我们每个类别只有一个例子。现在的任务是用一幅图像进行训练,最后将测试图像分成不同的类。为了实现这个目标,出现了许多不同的体系结构,例如连体神经网络(/questions/1 149 40/what ' s difference-between-metric-spaces-and-vector-spaces)。

现在我们已经了解了这个背景,可以开始了解原型网络是如何不直接对图像进行分类,而是在度量空间中寻找图像之间的映射关系的。如上图所示,同一类的图像经过编码器映射后彼此距离很近,而不同类的图像距离很远。这意味着无论何时给出新的示例,网络只需要检查新示例的最接近的图像集,并将示例图像分类到其相应的类别中。原型网络中把图像映射到度量空间的基本模型可以称为“Image2Vector”模型,这是一种基于卷积神经网络(CNN)的架构。

现在,对于那些不知道CNN的人,你可以在这里阅读更多内容:

简单来说,他们的目标是训练分类器。然后,分类器可以概括训练期间不可用的新类别,并且只需要每个新类别的几个示例。因此,训练集包含一个类别的图像,而我们的测试集包含另一个类别的图像,这与之前的组完全无关。在该模型中,实例被随机分为支持集和查询集。

少数镜头原型ck计算为每类嵌入支持示例的平均值。编码器映射新图像(X)并将其分类到最接近的类中,例如上图中的C2(source:/questions/64 5672/what-is-a-point-and-a-vector)。

负对数概率原理,来源:/brendenlake/omnilot)

该网络在Omniglot数据集(/brendenlake/omniglot)上进行训练。Omniglot数据集是专门为开发更类似于人类学习的算法而设计的。它包含50个不同的字母,1623个不同的手写字符。为了增加类别数,将所有图像分别旋转90度、180度和270度,每个旋转后的图像视为一个新的类别。所以总类数达到了6492 (1,623+4)类。我们用4200类图像作为训练数据,剩下的用于测试。对于每个集合,我们根据64个随机选择的类中的每个示例来训练模型。我们对模型进行了1小时的训练,达到了88%左右的准确率。官方文件显示,经过几个小时的训练和一些参数的调整,准确率达到了99.7%。

是时候自己动手了!

您可以通过访问以下链接轻松运行该代码:

代码地址:/hsankesara/prototypic-networks

运行地址:/run?template =/Hsankesara/prototypic-Networks

让我们深入学习代码!(向左滑动查看完整代码)

以上代码是Image2Vector CNN结构的一个实现。其输入图像的尺寸为28*28*3,其返回的特征向量的长度为64。

上面的代码片段是原型网络中单个结构的实现。如果您有任何问题,请在评论中提问或在此提问。非常欢迎您的参与和评论。

网络概述。来源:/n-shot-learning/

本文由雷锋字幕组成员翻译,这是一个由AI爱好者组成的字幕翻译团队。团队成员包括大数据专家、算法工程师、图像处理工程师、产品经理、产品运营、IT顾问、在校师生;志愿者来自IBM、AVL、Adobe、阿里、百度等知名企业,以及北大、清华、港大、中科院、南卡罗来纳大学、早稻田大学等国内外高校的科研院所。了解字幕组请加微信~