OpenAI Blog2020年6月17日

Image GPT

We find that, just as a large transformer model trained on language can generate coherent text, the same exact model trained on pixel sequences can generate coherent image completions and samples. By establishing a correlation between sample quality and image classification accuracy, we show that our best generative model also contains features competitive with top convolutional nets in the unsupervised setting.

阅读原文

收藏邮箱

AI 分析

标题洞察

“Image GPT”这个标题极简、技术感强，天然适合借势“GPT 不只会写字，也能生成图像”的传播点。它有明显的跨界联想空间，适合改写成更通俗的标题，比如“把 GPT 用在图片上，会发生什么”。不过原题本身偏研究论文风格，传播时最好补一个结果导向的副标题，降低理解门槛。

核心观点

这篇文章最核心的判断是：和语言一样，基于像素序列训练的同一种 Transformer，也能生成连贯的图像补全和样本。摘要还提出一个重要关联：样本质量越好，图像分类表现往往也越强，这说明生成能力和表征能力可能存在联系。需要注意的是，这里的“竞争力”来自无监督设定下与顶级卷积网络对比，具体范围和实验细节只能以原文为准。

创作启发

可以写成“为什么一个只会续写像素的模型，也能学到有用视觉特征”的科普短文，重点解释生成式学习和识别式学习的关系。也适合做成视频选题：用“补全图片”的直观演示，讲清 Transformer 为什么能从序列建模走向视觉任务。社媒帖可以提炼成一句话冲突：“好看的生成，不只是会画，还可能意味着更强的理解能力。”