最近吧里对AI画图的讨论很是热烈,但也出现很多对原理的错误理解,有些是以讹传讹。最常见的误解是这样的:先提取关键字,然后从数据库搜出几幅图片,最后将图片缝合到一起。实际上与真正的原理八竿子打不着关系,我猜测这种结论应该是由果推因,毕竟从最终效果来看,确实有一定的缝合嫌疑。
下面我尝试用通俗的语言来解释AI画图的原理,尽量让没有AI基础的人都能看懂。
首先定义AI画图是什么?本帖仅指代“由文本生成图像”这种方法为“AI画图”。文本由人类提供,AI模型根据这条文本生成对应的图像。
在前些年一般是用对抗生成网络(GAN)还有一些别的方法来做的,效果一般般也没引起太大反响,就不细说了。今年四月DALL·E 2横空出世效果惊艳,于是大家也能看到今年讨论AI画图的特别多,其核心就是使用的扩散模型,以及CLIP模型。CLIP能将文本和图像关联起来的模型,这里就不细讲,我们看看最关键的扩散模型什么原理。
如下图所示,从左往右是逐渐增加噪声的过程,也叫扩散过程,从右往左则是逆过程,表示逐渐从噪声恢复出图片。扩散过程很简单,随便加点随机数就行,但我们让模型学的就是逆过程,模型需要一点点降噪恢复出原图。在最初的算法中这个过程要迭代1000次,V100显卡大概也要几分钟才能出图,现在优化到50次了。在降噪过程中,给模型提供文本信息,模型就能按照我们想要的方向进行降噪。
AI画图原理科普和实践
Pig farmer.
Lv.2
接下来用midjourney展示一下我的体验,下面两张是“宝可梦猴子,悟空”。如果你喜欢某张图片,可以基于这张图片继续生成,让AI不要放飞自我。我在midjourney看到几张别人生成的有意思的图,比我有创意。3.“黑魂骑士举重”。4.“悟空在骑马”。AI理解的悟空是七龙珠里的,赛亚人发型云可还行。5.“奇异博士和奶奶一起织毛衣”。实际这里AI让奶奶穿上奇异博士的衣服了草,这估计是数据偏见。6.“烤肉超级英雄”,不可名状。7.“龙,史诗,摩托车,日本,冰”。AI:缝!
回复
勾嘴笑
Lv.2
是这样吗,以前的我知道是gan做的,后面我以为是用比较火的transformer自编码器啥的做的
回复
今天喝了吗ლ
Lv.2
画布尔乔亚表示很淦
回复
六一&七七
Lv.2
支持技术科普
回复
一只仓鼠的梦
Lv.2
学习了
回复
咸鱼味美少女
Lv.2
能介绍一下图像AI的上手途径吗?从基础的机器学习理论开始学?
回复
乖乖小可爱
Lv.2
这midjourney还是绑在discord服务器上的,这不就不能画色图了么
回复
菜菜呀
Lv.2
没有人会接受自己辛辛苦苦练出来的画风画出来的画被拿来做ai的嫁衣,所以ai和画师的冲突是不可调解的冲突,就好像ai全自动流水线和底层工人的冲突一样,其本质上是技术和人本身的冲突
回复
麻辣烫喵
Lv.2
真有关键字抓图缝合的吗?从我开始了解的时候就是GAN了,没见过抓图缝合的算法
回复
枕霜花活宝
Lv.2
意思是说人类画画是在白纸上从无到有画出内容,而ai是在已经有随机噪点等数据的画布上筛走无用数据,恢复出“原图”?不过这个原图只是理论上的,实际上不存在,是依靠人类的指引来寻找的可能符合的数据。那也就是说作画ai也并不能像强人工智能一般从无到有创作内容,更像一个超级筛选器。如果不输入任何内容强行输出就会画一堆随机噪点吧?
回复
请登录之后再进行评论
登录