从OpenAI发布DALL-E说起，5年来图像生成领域都有哪些大事

大数据文摘 | 2021-01-18 13:18:14 阅读：2003

OpenAI因打造了一些A.I.行业最具未来感的产品雏形而名声大噪。

这家由微软支持的研究机构现在由Y Combinator创始人Sam Altman领导。它最著名的是强大的文本生成器GPT-3，但在过去的几年里，它还建立了一个教自己解魔方的机械手，一个像超人一样的电子竞技算法团队，一个能创作出令人感到舒适的音乐算法，以及能玩游戏和使用工具学习复杂策略的算法。

上周，OpenAI发布了DALL-E，这是一个可以根据书面文字生成图像的A.I.系统。例如，针对提示 "一个牛油果形状的皮包，一个模仿牛油果的皮包"，该系统可以对牛油果皮包的想法生成几十次迭代。

该公司还没有向公众甚至是它通常邀请试用新软件的特定开发者群体提供DALL-E，但其网站上的例子表明，该系统可以创建极其逼真和清晰的图像。该名称取自是萨尔瓦多-达利（Salvador Dalí）和WALL-E的混合体，DALL-E精通各种艺术风格，包括插画和风景。它还可以生成文字来制作建筑物上的标志，并分别划分制作同一场景的草图和全彩图像。A.I.的研究人员将这种深远的能力称为泛化，这意味着该算法并不仅适用于特定任务或艺术风格。

OpenAI将算法的熟练程度归功于两个主要因素。首先，该算法非常庞大。它使用了令人瞠目结舌的120亿个参数，这些参数可以被认为是被算法转动的旋钮，用来调整它如何理解想法。这120亿个参数让它在分析图像和文本时，可以学到不可思议的特征性。

然后，就是将这些图片和文字材料输入算法的方式。文字和图像都被翻译成算法更容易理解的tokens或文本。OpenAI在其关于DALL-E的博文中解释说，tokens就像英文字母表中的字母一样——它们以机器更容易计算的方式代表了零散的概念，并以一种为算法准备的语言排列。这个机器字母表包含了16384个文本的标记和8192个图像的标记。这种将人类可读的文字自动翻译成机器可读的文字的方法被称为 "变换器模型"。

博文链接：

https://openai.com/blog/dall-e/

当算法得到一个标题，或图像附带的文字时，它被翻译成最多256个token，而图像被翻译成最多1,024个token。这使得该算法可以将相对较少的文字输入与复杂得多的图像进行匹配。

该算法通过分析成对的图像和标题进行学习。通过表层的数百万次迭代，它将文本片段与图像的特定特征联系起来。OpenAI还没有公布这个数据集的大小，也没有公布它包含哪些图像。

该公司并不是第一个尝试从文本生成图像的公司，该算法也不是OpenAI的第一次尝试。这只是这一类算法中最新的、看起来能力最强的版本。虽然该公司还没有发布描述该系统的论文，但该算法的创建者确实在其博客上引用了DALL-E的前身。通过对该算法的成长历程进行可视化浏览，我们可以追溯该技术到底走了多远。

2016

这篇来自密歇根大学和Max Planck研究所的论文被OpenAI誉为振兴当前文本到图像生成研究的论文，该论文使用生成式对抗网络，即GANs来生成图像。GANs的功能是将两种算法对立起来。一个用来生成图像，另一个如果图像看起来不够真实，就拒绝它。

论文链接：

https://arxiv.org/pdf/1605.05396.pdf

2017

一年后，Rutgers大学、Lehigh大学和香港中文大学的研究人员采取了另一种GAN方法——"叠加 "成对算法。第一对算法将场景的形状和颜色铺设出来，第二对算法完善细节。

论文链接：

https://arxiv.org/pdf/1710.10916.pdf

2019

2019年，另一个主要隶属于微软的团队尝试了一种不同的两步法。第一步是生成一张物体在场景中的位置图，第二步是以这张位置图为指导，生成物体，形成想要的画面。

论文链接：

https://arxiv.org/pdf/1902.10740.pdf

2020

而在去年年底，Allen AI 研究所发表了一项研究，使用了一个与OpenAI相同的转换器模型。Allen研究所的研究人员没有去追求模型的纯粹大小，而是依靠 "masking"。麻省理工学院科技评论的Karen Hao在一篇解释该论文的大文章中进一步详细介绍了masking，他将masking描述为："在句子中隐藏不同的单词，并要求模型填入空白"。通过让算法学习进行这些直观的跳跃，研究人员发现，图像生成的质量得到了极大的提高。

研究论文链接：

https://arxiv.org/pdf/2009.11278.pdf

解释文章链接：

https://www.technologyreview.com/2020/09/25/1008921/ai-allen-institute-generates-images-from-captions/

通过查看这些过去研究的例子，很明显，OpenAI的DALL-E真的是一个很大的飞跃。OneZero专栏作家欧文-威廉姆斯(Owen Williams)说：“最先进的技术已经从生成可怕的斑点发展到了他真的会买的牛油果椅子。如果这没有让一代家具设计师，股****绘图师和任何在线艺术家害怕，我不知道什么会。”