在我眼中,这些鸟儿看起来十分真实,其中一只的腹部长满了疏松的黄色羽毛。另一只要着绿色的尾巴和长长的喙。而这些照片完全都是虚拟的。微软最新的人工智能AttnGAN能依据你的想象直接给出图片,你只需求给这个零碎输出一个句子(比方“这只鸟是白色和白色的,它的喙十分短”),那么它们就能生成图片。也就是说AttnGAN可以“惹是生非”出这些高清的、像素为256 x 256的照片。
这个项目的主管研讨员Xiaodong He表示:“四年前,不会有人置信这样的技术可以完成。”
在过来的五年里,他研讨了言语和图片之间的关系,并训练人工智能去执行这类义务。最后他发明了一个名为CaptionBot的人工智能,它能用文字去描绘一张图片——这种功用可以为视力受损者提供协助。之后他设计了一种人工智能可以答复你针对某张图片提出的特定成绩,让研讨又更进一步。
如今的AttnGAN让他完成了最初一步。复杂的说,微软的人工智能可以经过寥寥几个词汇生成图片。
其名字“AttnGAN”就是源于它的设计进程。微软的研讨员让两团体工智能相互“角力”(也就是所谓的对立生成网络,Generative Adversarial Network,即“GAN”的由来),这两种人工智能都经过少量的言语和图片数据集停止训练,但其中一个次要去消费图片,另一个担任给出评论。从最后的模糊图片到最初高清图片,第二团体工智能会在这其中的三个阶段给出评论。这种继续的“对立”会不时优化AttnGAN,让它们最终生成你明天所能看到的图片。
虽然像素比拟低,但这些图片还是十分逼真的。除了逼真,它还会特别强调细节。这里讲的也就是“AttnGAN”之中的“attention”局部,人工智能会依据言语的描绘,对图片停止十分小范围的微调。比方说一只鸟,它有十分多的细节,例如蓝色的喙、黄色的羽毛、长的或短的喙等。这种设计细节的“即兴创作”远比谷歌的狭义描绘人工智能复杂得多。甚至Ad不知道从何时开始,个人信用渗透到生活的方方面面。图书、数码产品免押金借用,办理签证无需银行流水证明,甚至租车住酒店都不需要交付押金……obe的怪诞图片制造工具也都是始于一张实践照片的,而不是一张“白纸”。
当然AttnGAN也被发现存在一定的局限性。比方研讨员要求它画一辆白色的双层巴士,同时它还飘在湖上。后果它画出来的更像是一艘模糊的白色和白色的船。语境似乎对主题发生了影响,它将两个东西混分解了一个,毕竟巴士是不能够在水里开的,所以AttnGAN画了一艘船。
在另一个案例中,研讨员要它画一个“正在吃一大块披萨的女孩”。女孩的样子画的倒是有板有眼,但图片里的其他东西就不如人意了,它更像是经过了某种奇特的渲染。