机器看一眼就能识别物体 谷歌DeepMind新成果

机器看一眼就能识别物体 谷歌DeepMind新成果

  引导语:度学习系统是一种神经网络,其中不同层次互联元件的敏感性可以在训练中得到调节,从而模拟人脑中的神经元。这类系统通常需要观察大量图片,才能正确调节虚拟神经元之间的连接。

  对于某一对象,大部分人只要看过一遍就能再次识别。但计算机视觉和语音识别算法往往需要“观察”数千个对象,才能识别出类似的新图片或新单词。

  对于这样的问题, 谷歌 (微博)DeepMind的研究人员找到了解决方案。他们对深度学习算法做出了调整,使其可以在“观察”一张图片后就能识别出类似图片,这也被称作“一次完成学习”。该团队利用包含多张有标记图片的大型数据库演示了这项技术,此外还演示了这项技术在手写文字和语言识别方面的应用。

  最优秀的.算法能可靠地识别出对象,但由于对数据的需求,开发这样的算法耗时耗力。例如,能识别道路上车辆的算法需要人工输入数千个范例,随后才能被用于无人驾驶汽车。收集如此多的数据往往不可行。例如,在来到陌生的家庭后,机器人不可能有大量时间去熟悉环境。

  谷歌DeepMind研究科学家欧利奥尔·温亚尔斯(Oriol Vinyals)给深度学习系统加入了记忆元件。深度学习系统是一种神经网络,其中不同层次互联元件的敏感性可以在训练中得到调节,从而模拟人脑中的神经元。这类系统通常需要观察大量图片,才能正确调节虚拟神经元之间的连接。

  该团队利用名为ImageNet的数据库展示了这项技术。这一数据库中包含大量有标签照片。软件仍需要分析数百种图片类别,但在此之后,软件只需要“观察”一张照片,例如宠物犬的照片,即可识别出新照片中的宠物犬。实际上,该软件能高效地识别出图片中独有的特征。这种系统的识别准确率与传统需要大量数据输入的机器学习系统基本相当。

  温亚尔斯表示,如果能迅速识别出新单词的含义,那么这一系统将尤为有用。这对谷歌来说将很重要,因为这可以帮助系统迅速学习新搜索关键词的含义。

  其他研究者也在开发“一次完成的”学习系统,但这类技术通常与机器学习不兼容。去年,一个学术项目利用概率编程技术实现了非常高效的学习。

  深度学习系统正变得越来越强大,尤其是在加入了记忆机制之后。谷歌DeepMind的另一个团队近期开发了一种具备灵活记忆能力的神经网络,从而完成简单的推理任务。例如,在分析了几张简单的网络图之后,这一系统能学会如何在复杂的地铁系统中找到路线。

  韩国大田先进科技研究所大脑和机器智能实验室负责人Sang Wan Lee表示:“我认为这是个非常有趣的方法,在如此大规模数据集的基础上,通过有趣的方式去实现一次完成学习。这是对人工智能研究社区的重要技术贡献,而计算机视觉研究员将会非常关注这一成果。”

  不过另一些业内人士则对这类技术的实用性表示了怀疑,因为这与人类学习相比仍有很大差异。哈佛大学大脑科学系助理教授萨姆·戈尔什曼(Sam Gershman)表示,人类通常是根据照片画面的组成元素去理解照片,这需要真实世界知识,或者说常识。例如,“平衡车看起来可能与自行车和摩托车完全不同,但实际上是由相同的部件组成的”。

  戈尔什曼和Sang Wan Lee指出,机器学习的能力达到人类水平还需要一段时间。后者表示:“我们仍远远没有揭开人脑一次完成学习的奥秘。然而这种方法很明显提出了新挑战,并值得进一步研究。”(编译/陈桦)

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 yyfangchan@163.com (举报时请带上具体的网址) 举报,一经查实,本站将立刻删除