一句话发明一个新物种，微软这个新工具让你当一回「造物主」

2026-07-16 01:04:45

导读如今是咸蛋超人直播答题现场，奖金 100 万，请看本次答题的最初一题：图片中的这只鸟类的学名叫什么？假如真有这题，估量没人能真答对。即便用上了答题助手，求助迷信达人，甚至植物学家都会全军覆没。由于这只小鸟实践上并不存在，是微软的 AI 工具 AttnGAN 生成的一张假照片，操作非常复杂，只需你依据想象输出对这只鸟类的一句话描绘，这只不存在的鸟类就降生了。这是微软研讨实验室最近开发的一项人工智能技

如今是咸蛋超人直播答题现场，奖金 100 万，请看本次答题的最初一题：

图片中的这只鸟类的学名叫什么？

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

假如真有这题，估量没人能真答对。即便用上了答题助手，求助迷信达人，甚至植物学家都会全军覆没。

由于这只小鸟实践上并不存在，是微软的 AI 工具 AttnGAN 生成的一张假照片，操作非常复杂，只需你依据想象输出对这只鸟类的一句话描绘，这只不存在的鸟类就降生了。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

这是微软研讨实验室最近开发的一项人工智能技术 AttnGAN ，可以让 AI 依据相似字幕的文本描绘生成相应的图片。

其实依据文本生成图像的技术不算新颖，但微软称 AttnGAN 生成的图像质量比此前的文本生成图像技术相比进步了近 3 倍，微软研讨实验室的首席研讨员 Xiaodong He 表示：

四年前还没人置信这个技术能做到这种水平。

当 AI 拥有想象力

究竟 AttnGAN 这项技术有什么了不起，总结起来其实就三个字：想象力。

以扫尾那只小鸟为例，假如我们要凭空画出来，大约步骤会是这样，先在那脑海中想象这幅画的样子：一只腹部红白相间、黑色翅膀、短喙的小鸟。然后先在纸上勾勒出鸟身的轮廓，然后用不同颜色的画笔画出鸟身的各个部位，最初画上黑色短小的鸟喙。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

（图自：光阴网）

而 AttnGAN 也可以完成这样需求丰厚想象力的任务，微软研讨人员称之为绘图机器人。Xiaodong He 以为这样这项技术的应战在于，需求让绘图机器人想象出文字描绘中没有包括的细节：

这意味着，你需求让 AI 经过机器学习的算法想象出这个图像中缺失的局部。

目前 Google 和 Adobe 的一些图片生成技术都是基于真实的图片开端生成，而微软这个绘图机器人则是从像素点开端生成，是真的「凭幻想象」。

（小鸟照片生成进程）

比方那幅小鸟的照片，输出的文本中并没有提到它会站在一个树枝上，最初的后果其实是来自 AI 在少量数据学习后的想象。

这一切都是经过一个生成式对立网络（Generative Adversarial Network，GAN）完成的。望文生义，这是由「友好」的两个机器学习模型组成。一个担任从文本描绘消费图像，另一个是鉴别器（discriminator），担任判别消费图片的真实性。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

假如鉴别器断定生成的图片不合格，就会打回重做。而担任从文本描绘消费图像的 AI 模型则要想方设法进步图片的真实性，以「诈骗」鉴别器的火眼金睛。两者互相矛盾又互相配合，让最终消费的图片可信度更高。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

此外微软的这个绘图机器人高度模拟了人类绘画的思绪。在人类的绘画进程中，会对正在描画的局部非常专注，依据重复想象画出下一局部的内容。

AttnGAN 模仿了了这个进程，将输出的文本拆解为各个单词，再辨别将这些关键词与图像中的特定区域相婚配。微软研讨实验室的首席研讨员 Xiaodong He 表示：

留意力是一团体类的概念，我们把这个概念变成了一个机器学习的成绩。

虽然微软这个绘图机器人在文本到图像的生成方面获得了打破，不过实践上目前仍不够成熟。上文中提到的那只「不存在」的小鸟，照片像素只要 256 x 256，这曾经是它能做到的极限了。

而这些机器生成的照片假如细心检查，还是会有不少漏洞。比方这幅这张依据「摆放了香蕉和奇特果」的文本描绘生成的照片，可以看到香蕉发作了分明的变形。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

而面对某些更为复杂的文字描绘，AttnGAN 显然还无法很好天文解。研讨人员对其停止了一系列难度测试，比方输出「漂浮在湖面上的白色双层巴士」。后果生成的却是一艘红白相间的游艇，能够是 AI 以为巴士漂浮在湖面并不能够。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

而一些看似复杂的文字描绘 AttnGAN 也未必能体会，比方面对「一个吃披萨的女孩」的文字命令，它生成的是一张人脸简直无法识别甚至有点惊悚的照片。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

微软的研讨人员表示，这个绘图机器人还需求学习更多知识和背景知识才干绘制出更逼真和复杂的图像。

绘图机器人是福还是祸？

说了这么多，微软的绘图机器人在生活中有有什么用呢？

微软表示，随着这种文本到图像的生成技术逐步成熟，它可以作为画家和设计师的智能助理，还能经过语音指令来丑化图片，甚至能基于电影剧本生成动画电影，降低动画电影制造的本钱。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

（AI 编剧的电影《 Sunspring 》，图自： YouTube ）

不过假如生成一张虚拟照片真的只需求一句话，这样的低门槛也能够让假旧事和谣言的滋长和传达增添一大利器。

在社交网络里，我们市场看到一些营销号「发现」了奇葩的或许曾经灭绝的新物种照片，偶然还会被一些媒体当作旧事报道。

其中最为知名的则是发作在 2007 年的华南虎事情，陕西林业厅发布了猎人周正龙用数码相机和胶片相机拍摄的野生华南虎照片。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

事先野生华南虎曾经根本绝迹，因而照片发布后惹起了全国范围的关注，不过这些照片很快就被证明是依据一张年画伪造的。

过来做这样的假旧事还需求比拟好的 P 图技术，而微软绘图机器人这样的工具，能够让生成假照片变得愈加容易，也更难以鉴别真假。

去年 7 月份，美国华盛顿大学的研讨者们就应用人工智能以及数字图像分解技术，消费了一段真假难辨的奥巴马演讲视频。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

（你能分辨出哪个才是真的奥巴马演讲视频吗？图片来源： YouTube ）

而最近还有人应用 AI 工具把好莱坞女星的脸嫁接到色情影片的演员上。

一句话创造一个新物种，微软这个新工具让你当一回「造物主」

（《神奇女侠》主演盖尔·加朵的脸被「换」到了一个色情电影演员上，图自： motherboard ）

虽然如此，也不用对这种技术过于担忧。很多科技产物本领就是双刃剑，就像核裂变的链式反响既可以给人类的少量动力，也能发作核走漏或许变成核弹毁了一座城市。

科技让生活更美妙，前提是我们能掌控它，我们要做的是想方法去掌控它，而不是由于它的反作用而把它关进盒子里。

题图来自： Space ，局部配图来自：微软研讨院

一句话创造一个新物种，微软这个新工具让你当一回「造物主」