来自三所大学的研究团队最近发布了一个名为ImageNet-A的数据集,其中包含自然对抗图像:由图像识别AI错误分类的真实世界图像。当在几个高级预训练模型上用作测试集时,这些模型的准确率低于3%。
在7月发表的一篇论文中,来自加州大学伯克利分校、华盛顿大学和芝加哥大学的研究人员描述了他们创建7500倍图像的过程,这些图像是“傻瓜”预先训练的图像识别系统的故意选择的数据集。虽然之前已经有关于该系统抗攻击的研究,但是大部分工作都是研究如何以模型输出错误答案的方式修改图像。
相比之下,该团队使用真实或“自然”的图像,这些图像不是通过互联网收集的。该团队将其图像用作DenseNet-121的预训练测试集模型。当在流行的ImageNet数据集上测试时,它的最高错误率为25%。使用ImageNet-A测试时,同一模型的前1名错误率为98%。该团队还使用他们的数据集来衡量研究小组开发的“防御性”训练措施的有效性。他们发现“这些技术几乎毫无用处”。
近年来,计算机视觉系统取得了长足的进步,这归功于卷积神经网络(CNN)等深度学习模型和ImageNet等大规模精选图像数据集。然而,这些系统仍然容易受到攻击。在这种情况下,容易被人类识别的图像已经被修改成使得人工智能将图像识别为其他图像的方式。
这些攻击可能会对自动驾驶汽车造成严重后果:研究人员已经表明,停车标志可以通过让许多计算机视觉系统将它们识别为让行标志来修改。虽然已经研究了防御这些攻击的技术,但到目前为止,“只有两种方法提供了重要的防御”。
其中一种方法叫做对抗训练,其中除了“干净”的输入图像之外,还使用带有噪声或其他干扰的对抗图像来训练模型。ImageNet-一个团队使用对抗训练和ImageNet数据集来训练ResNeXt-50模型。当在其ImageNet-A对抗数据上测试时,这确实略微提高了模型的健壮性;然而,在“干净”的ImageNet测试数据上,准确率为92.2%的top-5模型通常会下降到81.88%。考虑到健壮性的提高,团队认为这是不可接受的。另一方面,该团队发现简单地增加模型大小(例如,通过添加层)确实提高了健壮性,并且在一些模型架构中,准确性几乎翻了一番。