AI画图原理科普和实践

查看作者

打赏作者

Lv.2

最近吧里对AI画图的讨论很是热烈，但也出现很多对原理的错误理解，有些是以讹传讹。最常见的误解是这样的：先提取关键字，然后从数据库搜出几幅图片，最后将图片缝合到一起。实际上与真正的原理八竿子打不着关系，我猜测这种结论应该是由果推因，毕竟从最终效果来看，确实有一定的缝合嫌疑。
下面我尝试用通俗的语言来解释AI画图的原理，尽量让没有AI基础的人都能看懂。
首先定义AI画图是什么？本帖仅指代“由文本生成图像”这种方法为“AI画图”。文本由人类提供，AI模型根据这条文本生成对应的图像。
在前些年一般是用对抗生成网络（GAN）还有一些别的方法来做的，效果一般般也没引起太大反响，就不细说了。今年四月DALL·E 2横空出世效果惊艳，于是大家也能看到今年讨论AI画图的特别多，其核心就是使用的扩散模型，以及CLIP模型。CLIP能将文本和图像关联起来的模型，这里就不细讲，我们看看最关键的扩散模型什么原理。
如下图所示，从左往右是逐渐增加噪声的过程，也叫扩散过程，从右往左则是逆过程，表示逐渐从噪声恢复出图片。扩散过程很简单，随便加点随机数就行，但我们让模型学的就是逆过程，模型需要一点点降噪恢复出原图。在最初的算法中这个过程要迭代1000次，V100显卡大概也要几分钟才能出图，现在优化到50次了。在降噪过程中，给模型提供文本信息，模型就能按照我们想要的方向进行降噪。

日常交流

Pig farmer.

Lv.2

接下来用midjourney展示一下我的体验，下面两张是“宝可梦猴子，悟空”。如果你喜欢某张图片，可以基于这张图片继续生成，让AI不要放飞自我。我在midjourney看到几张别人生成的有意思的图，比我有创意。3.“黑魂骑士举重”。4.“悟空在骑马”。AI理解的悟空是七龙珠里的，赛亚人发型云可还行。5.“奇异博士和奶奶一起织毛衣”。实际这里AI让奶奶穿上奇异博士的衣服了草，这估计是数据偏见。6.“烤肉超级英雄”，不可名状。7.“龙，史诗，摩托车，日本，冰”。AI：缝！

勾嘴笑

Lv.2

是这样吗，以前的我知道是gan做的，后面我以为是用比较火的transformer自编码器啥的做的

今天喝了吗ლ

Lv.2

画布尔乔亚表示很淦

六一&七七

Lv.2

支持技术科普

一只仓鼠的梦

Lv.2

学习了

咸鱼味美少女

Lv.2

能介绍一下图像AI的上手途径吗？从基础的机器学习理论开始学？

乖乖小可爱

Lv.2

这midjourney还是绑在discord服务器上的，这不就不能画色图了么

菜菜呀

Lv.2

没有人会接受自己辛辛苦苦练出来的画风画出来的画被拿来做ai的嫁衣，所以ai和画师的冲突是不可调解的冲突，就好像ai全自动流水线和底层工人的冲突一样，其本质上是技术和人本身的冲突

麻辣烫喵

Lv.2

真有关键字抓图缝合的吗？从我开始了解的时候就是GAN了，没见过抓图缝合的算法

枕霜花活宝

Lv.2

意思是说人类画画是在白纸上从无到有画出内容，而ai是在已经有随机噪点等数据的画布上筛走无用数据，恢复出“原图”？不过这个原图只是理论上的，实际上不存在，是依靠人类的指引来寻找的可能符合的数据。那也就是说作画ai也并不能像强人工智能一般从无到有创作内容，更像一个超级筛选器。如果不输入任何内容强行输出就会画一堆随机噪点吧？

本页链接：

帖子间隔

AI画图原理科普和实践

你可能想认识

动态墙

随机推荐

如何屏蔽本站广告？点我查看教程