农企新闻网

人工智能的想象力在哪里?微软的这个机器人画家通知你答案

发布者:王夕东
导读雷锋网按:人工智能可以完成什么?毫无疑问它可以协助我们完成很多事情,但微软最近开发的一项人工智能技术刷新了我们关于人工智能的认知。基于计算机辨认和自然言语处置,微软开收回一种可以依据用户描绘来绘图的机器人,它甚至可以协助用户补全未必描绘的细节。目前微软曾经经过官方博客发布了这一效果,雷锋网(大众号:雷锋网)对这篇博客停止了不改动原意的编译。试想一下,你手中拿着稿纸和画笔,被要求画一幅关于鸟的照片,

雷锋网按:人工智能可以完成什么?毫无疑问它可以协助我们完成很多事情,但微软最近开发的一项人工智能技术刷新了我们关于人工智能的认知。基于计算机辨认和自然言语处置,微软开收回一种可以依据用户描绘来绘图的机器人,它甚至可以协助用户补全未必描绘的细节。目前微软曾经经过官方博客发布了这一效果,雷锋网 (大众号:雷锋网) 对这篇博客停止了不改动原意的编译。

人工智能的想象力在哪里?微软的这个机器人画家告诉你答案

试想一下,你手中拿着稿纸和画笔,被要求画一幅关于鸟的照片,这只鸟要有黄色的身体,黑色的翅膀和短短的鸟喙。你大约会先画出鸟的大约轮廓,之后反省修正一下,持续想想黄色的身体局部,然后用黄色的画笔填充鸟的身体。接着再用黑色的画笔完成鸟的翅膀,最终反省一下,画上短短的有些发亮的鸟喙。为了使之更生动抽象,你或许会画上鸟所栖息的树干。

如今,机器人也可以如你一样做到这一点了!

微软研讨实验室正在开发的新型人工智能技术可以从字幕式的文本描绘中截取单个的词语生成图像。网站 arXiv.org 上宣布的一篇研讨报告称,依据行业规范测试的后果,这项技术发生的图像质量与之前的文本到图像生成技术相比,进步了将近三倍。

研讨人员复杂地称之为绘图机器人, 该技术可以生成从普通的田园风景(如放牧牲畜)到荒唐有意义的(如浮动的双层巴士)一切图像。每幅图像都包括了文字描绘中没有提及的细节,标明该人工智能技术拥有一种天然的想象力。

“假如你用 Bing 搜索一只鸟,你会失掉一张鸟的图片。但是在这里,图片是由计算机逐一像素地从头开端创立的,”位于微软在华盛顿州雷蒙德市的研讨实验室,深度学习技术中心的首席研讨员和研讨主管 Xiaodong He表示。“这些鸟在理想世界中能够不会存在——它们只是标明了计算机对鸟类想像力的一个方面”。

这项绘图机器人技术完成了他和他的同事在过来五年中,探究过的计算机视觉和自然言语处置的穿插学科研讨。他们从自动编写照片字幕 —— CaptionBot ——的技术开端,然后转向另外一种技术,答复人类对图像提出的成绩,例如对象的地位或属性,这点对盲人特别有用。

这些研讨任务需求训练机器学习模型来辨认对象,完成行为和自然言语间的交互。

“如今我们要用文字来生成图像,”该组织的博士后研讨员,论文合著者 Qiuyuan Huang 表示, “所以,这就是一个循环。”

图像生成是一个比图像字幕更具应战性的义务,团队中的副研讨员 Pengchuan Zhang 补充说,由于这个进程需求绘图机器人想像没有包括在标题中的细节。他说:“这意味着你需求运转人工智能的机器学习算法来想象一些图像中的缺失局部。”

细致的图像生成

微软绘图机器人的中心是一种被称为“生成对立网络”(Generative Adversarial Network,GAN)的技术。网络由两个机器学习模型组成,一个从文本描绘生成图像,另一个称为鉴别器,运用文本描绘来判别生成图像的真实性。发作器试图经过假照片骗过鉴别器,同时鉴别器停止判别。二者一同作用,将发作器不时完满。

微软的绘图机器人在包括对应图像和标题的数据集上停止了训练,这些允许模型学习如何将单词与这些单词的可视化图片表示相婚配。例如, GAN 学会在标题说鸟的时分生成鸟的图像,并且异样学习鸟的图像应该是什么样的。他说:

这是我们置信机器可以学习的基本缘由。

当从复杂的文字描绘(例如蓝鸟或常青树)发生图像时, GAN 可以很好地任务,但在更复杂的文本描绘中效果不佳,例如具有绿色的冠,黄色的翅膀和白色腹部的鸟。这是由于整个句子作为发作器的单一输出。其中详细的信息发作了丧失。因而,生成的图像是一种模糊的带绿色和微黄色的鸟,而不是与描绘中严密婚配。

在人类的绘画进程中,我们重复提到文本,并亲密关注描绘我们正在绘制的图像区域和单词描绘。为了捕获这种人的特质,研讨人员创立了他们所谓的 attentional GAN或 AttnGAN,它们在数学上模仿了人类关注的概念。它是经过将输出文本分解为单个单词并将这些单词与图像的特定区域相婚配来完成的。

“留意是一团体的概念,我们用数学来停止计算。”他解释说。

该模型还从训练数据中学习到人类称为知识的东西,并且应用这个学习的概念来填充留在想象中图像的细节。例如,由于训练数据中的许多鸟类图像显示了坐在树枝上的鸟, AttnGAN 通常使鸟栖息在树枝上,除非文本另有规则。

“从数据来看,机器学习算法学习鸟站在树枝上应该属于这类知识,”Zhang 说。作为一项测试,该团队为漫画图像提供了绘图机器人所需的字幕,例如“一辆白色的双层巴士漂浮在湖面上”。它生成了一个模糊的,飘逸的双层巴士图像,相似于两层甲板船或双层甲板船,漂浮在群山盘绕的湖上。该图像标明,关于船只能漂浮在湖泊上和公共汽车的文本描绘之间,机器人外部有一个争斗。

“我们可以控制我们描绘的东西,看看机器如何作出反响。” 他解释说,“我们可以干预和测试机器究竟学到了什么东西。这台机器曾经具有一些背景知识,但它依然可以依照你所要求的运转,有时分,这似乎有点荒唐可笑。”

实践使用方面

这项文本到图像的生成技术可以运用到实践使用中,可以作为画家和室内设计师的草图助手,或作为语音控制的照片丑化工具。随同更弱小的计算才能,他想象这项技术可以生成基于电影剧本的动画电影,为电影制造人增加一些需求人工的本钱。

但就目前来看,这项技术还不完善。对图像停止细心反省后,简直总能发现瑕疵,例如蓝鸟喙,而不是黑色的,水果和基因渐变的香蕉长在一同。这些缺陷清楚地标明,是电脑而不是人类发明了这些图像。虽然如此, AttnGAN 图像的质量比以前最好的 GAN 图像质量进步了近 3 倍,并且这是通往加强人类本身才能的类人工智能路途上的一个里程碑 。

“由于人工智能和人类生活在同一个世界,他们之间必需找到一种相互交流的方式。”他解释道,“言语和视觉是人类与机器交流的两个最重要的途径。”

除了微软的 Xiaodong He,  Pengchuan Zhang and Qiuyuan Huang,协作者还包括前微软实习生利理海大学的Tao Xu和杜克大学的 Zhe Gan,罗格斯大学的 Han Zhang,理海大学的 Xiaolei Huang。

有关参考材料

1.阅读关于 AttnGAN 的 研讨论文

2.理解更多关于微软在 视觉和言语智能方面的 AI 研讨效果

3.检查 CaptionBot 和 Seeing AI 这两个使用

4. 数十年的计算机视觉研讨,“Swiss Army Knife”

Via  blogs.microsoft.com ,由雷锋网编译

人工智能的想象力在哪里?微软的这个机器人画家告诉你答案