揭秘用来训练全球 AI 的 1TB ImageNet 数据集:裸体

发布时间:2019-10-31   转载请注明:http://www.023dazhaxie.com/shijiemingxing/2019/1031/1205.html 
字号:

  

揭秘用来训练全球 AI 的 1TB ImageNet 数据集:裸体儿童烂醉的联谊大学生色情明星及更多

  他称:“有时候,色情内容的性质值得商榷,但在一些情况下,色情网站的链接赫然印在照片上。”

  Prabhu说:“很显然,这些内容是不道德的。”他看到了裸露孩子的背面、色情明星、大学生联谊会上恶作剧的照片,以及男扮女装的私照。一些照片上打有水印,上面的URL指向流出这些照片的不良网站。

  The Register后来发现,自1月份以来,ImageNet一直无法下载。创建者承认,他们意识到了有问题的内容。不仅有不合适的照片,用来描述照片的一些标签也带有偏见和种族主义。

  “数据集的创建者之所以让其中一些‘污染物’依然存在,就是由于没有多大的动力去投入资源以清除所有这些污染物,它们对于训练机器学习模型的总体影响也很小。”

  美国西海岸华盛顿大学的博士生Os Keyes正在研究性别和算法,他告诉我们“人脸模糊‘很有必要,但还不够’。人脸几并不是识别人的唯一方法。”这方面的其他方法包括衣服、纹身和身份证。

  他称:“当时我正尝试用BigGAN生成自行车的照片。”BigGAN是一种生成式对抗网络(GAN),在研究一组输入之后,可以教这种机器学习系统生成新的独特输出。换句话说,Prabhu本希望向BigGAN馈送来自ImageNet的自行车照片,以便他的计算机可以自己生成新颖的、之前从未见过的自行车照片。

  从公共来源抓取照片馈送给ImageNet之类的数据集是个颇有争议的问题。就算在遵循宽松式许可证的情况下使用了照片,要求对照片仔细检查以构建功能强大的对象识别神经网络是合情合理吗?在网上共享更多信息之前,我们是否果真要预测未来?

  2012年,该数据集用于构建AlexNet,这被誉为是深度学习领域的突破性进展,因为它标志着神经网络在对象识别方面的准确性首次超过了传统的计算方法。AlexNet后来又赢得了年度的ImageNet大规模视觉识别挑战赛。

  硅谷一家AI初创公司的机器学习科学家Vinay Prabhu无意中发现了该数据集的一些较隐蔽较模糊的照片。

  他称:“起初我还觉得很有趣,于是我决定浏览一下数据集。”没多久,他脸上的表情由好玩变成了震惊。

  然而,业内另一名消息人士让其查看整个ImageNet库——足足1.31TB大小,发现了大批令人不快的照片。

  他认为,需要出台新的法律,那样有人收集和分析人们的数据时,这些数据得到保护。他说:“许多公司往往未经我们的同意就使用和出售我们的生物特征识别数据。虽然其中一些做法可能合法,但这恰恰表明了需要采取更有效的生物特征识别隐私做法,以防范这类数据收集。”

  Albert Cahn是Surveillance Technology Oversight Project(总部位于纽约的非营利性激进组织)的律师、创始人兼执行董事,他告诉我们,他“非常担心利用计算机视觉抓取数据在隐私方面带来的影响。”

  该数据库含有1400万张照片,每张照片分门别类,描述每个场景中的主体。这对信息组合(照片和标签)用于教AI应用软件识别相机/摄像头拍摄的物体和人。

  IT外媒The Register要求访问该数据集时,ImageNet团队拒不允许。相反,一位发言人代表团队告诉称,由于“维护原因”,该库无法使用。

  尽管从照片网站抓取的部分或所有照片可能已获得宽松式许可证(比如Creative Commons)的许可,因而ImageNet团队和科学家可以自由使用和分发这些照片,不过据了解,被拍对象并非全部同意其照片在几年后馈入到各种各样的AI中。这本身对我们所有人来说是个教训:今天发布或共享的数据很可能在明天用于意料不到的场合。

  “我们正在开发和实施一种系统性的方法,以识别和删除有问题的照片,因为照片被认为有问题的标准会随着时间而发生变化,具有主观性,还取决于地方社区的标准和预期用途;理性点的人可能不同意在哪里简单地划一条界线。”

  ImageNet的类别按字母顺序排序,由软件按数字升序加以引用。在Prabhu用于研究的数据库的子集中,自行车是第444类,比基尼是第445类。他代码中的个位数错误导致其神经网络从第445类(比基尼)获取照片,而不是从第444类的自行车获取。

  他进一步钻研这个怪异的局面,调查了ImageNet库中的其他类别,结果发现了更惊人的资料,例如女性露出私部的照片。最重要的是,似乎没有一个当事人曾明确同意将自己的照片包含在无数神经网络和研究人员分析的数据集中。

  “我们部署了一套自动质量控制系统,可以过滤掉垃圾邮件发送者和有问题的照片,但是系统并不完美。就算有多重防范措施,考虑到工作的规模之大,有问题的照片仍会漏掉。要处理的照片超过1.6亿张,而MTurk工人只有5万多。”

  即使这些人在仔细打量照片后(他们被要求过滤掉任何不可靠的材料),有问题的照片还是成为漏网之鱼。ImageNet团队将此归咎于人为错误。据外媒The Register获悉,成千上万的网络自由职业者处理的照片超过了1.6亿张,因此一些失误也在情理之中。

  原标题:揭秘用来训练全球 AI 的 1TB ImageNet 数据集:裸体儿童、烂醉的联谊大学生、色情明星及更多!

  ImageNet有数百万张照片。大多数照片几乎没有害处,拍的是动物、植物或随拍对象之类的东西。一旦涉及到人,情况就变得有点危险。

  他告诉The Register:“让我感到震惊的是,数百万人的脸部未经当事人的同意就被使用、商业化。我认为,这些数据库中有孩子这一点恰恰表明了汇总这些数据集方面的规则到底多屈指可数。”

  这些抓取的照片传递给了在Amazon Mechanical Turk(MTurk)上挥汗工作的人,人们报名这项计划后,可以为别人处理简单任务,赚点小钱。这些人被要求将照片手动分配给特定类别,或者在照片中关注的对象周围画边框。

  实际上,该团队现正在清理ImageNet的不适当照片,希望对里面的全部人脸进行模糊化处理。

  “泳裤”和“浴帽”这两个类别有裸露的儿童。有这么一个特殊的例子:一个戴着透明浴帽、做鬼脸的赤身孩子就站在一名裸体男子的前面,就在孩子生殖器的正上方裁切了照片。在“和服”类别中,一名女子躺在床上,和服敞开,露出了双腿和私部。其他地方还有海边沙滩上闲逛的姿态各异的裸体者的照片。

  Tom White是一名专注于AI的数字艺术家,还是新西兰惠灵顿维多利亚大学设计学院的讲师,他以前在其作品中用过该数据集,他对我们说:“网上有大量不合适的照片,因此我们应该要料到,任何自动收集网上照片的库也包括这些照片。数据集的发布者通常会积极努力删除这些内容,但无论他们多努力,都会出现收益递减点。”

  就在世人庆祝ImageNet取得的成功之际,其令人不快的内容基本上被忽略了。

  ImageNet团队告诉The Register:“我们也认为,不适当的照片不该出现在数据集中。”

  问题主要归因于这些照片是如何收集的。美国斯坦福大学和普林斯顿大学的研究人员编写了一款软件,该软件从包括谷歌、Bing和照片共享平台Flickr在内的众多网站自动抓取了大量照片。

  ImageNet这个用于训练全球AI系统的数据集居然含有裸露儿童、沙滩上家庭、大学生派对、色情女演员等更多对象的照片,这些内容未经当事人的明确同意从网上抓取而来,以训练计算机系统。

  数据集创建者试图阻止我们看个究竟,但我们还是搞到了一份数据集。现在它被擦除干净。

  Crawford和Paglen之前说过,删除照片也会带来其他问题。“如果彻底删除照片,不仅AI历史的重要部分因此丧失,研究人员也无法看到这些假设、标签和分类方法如何在新的系统中加以复制,也无法追踪工作系统中体现出来的偏见和偏差的出处。”

  “这是数据集无法访问或消失的问题。如果它们现在或过去用于在日常生活中发挥作用的系统,能够研究和理解它们塑造的世界观就很重要。”返回搜狐,查看更多

  Prabhu称:“这些人不知道自己的人脸在这个数据集中。”他称,他发邮件给ImageNet的创建者提醒对方注意他发现的内容时,却没有收到任何回复。

  Kate Crawford是专注于AI社会影响的研究中心AI Now Institute的联合创始人,而Trevor Paglen是对大规模监控和数据收集颇感兴趣的艺术家,他们俩最近搞了一个项目:ImageNet Roulette。该项目发现,拿ImageNet训练的系统会用侮辱字眼和种族侮辱来标记人们的自拍照。他们拒绝就此事发表评论。

  Keyes说:“可以通过人脸来识别人,但可以通过人在拍照时呈现样子的其他许多细节来识别人,因此很难想象研究人员能够实际编写将可识别的特征挑出来的系统。这又是积极征求同意对于解决这个问题大有帮助的情形。”

  “毫无疑问,MTurk工人会犯错误,而MTurk上的垃圾邮件发送者(不注意说明事项或以其他方式提交低质量工作的人)始终是个问题,”该项目的发言人本月初告诉The Register。

  “由于我们拿来更多的信息、整合到机器学习中变得越来越容易,我们需要法律及时跟进,而传统的版权法规在保护公众方面还远远不够。”

  众多研究人员、工程师和学术人员已下载了该数据库,训练成百上千个神经网络,以识别照片中的内容:从突击步枪、围裙、喜鹊、小型巴士、斑马到西葫芦,不一而足。

  可是他的代码却生成了奇怪的肉色斑点,类似于模糊不清的女性身体。他百思不得其解,于是回过头去查看训练数据集,这才意识到自己无意中拿比基尼训练了其模型。

图说天下

×
织梦二维码生成器
荷兰建筑
世界明星
巴哈马科学
德国联赛