正在閱讀:

萬字長文講透AI藝術(shù):緣起、意義和未來(下篇)

掃一掃下載界面新聞APP

萬字長文講透AI藝術(shù):緣起、意義和未來(下篇)

以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態(tài)的想象空間。

文|巴比特資訊

AI 藝術(shù)更為直接的是一場新消費(fèi)變革,但以未來為終局,其必將是一場新技術(shù)變革,這是自十多年前移動(dòng)互聯(lián)網(wǎng)革命以來久違的一幕,讓開源生態(tài)點(diǎn)燃的這星星之火燃遍新十年創(chuàng)業(yè)的每個(gè)角落。與區(qū)塊鏈引領(lǐng)的加密變革稍有不同,AIGC(AI 藝術(shù)所歸屬的大類)帶給人們的興奮感并不來自純金融和財(cái)富預(yù)期(“多巴胺”),更多的是發(fā)自人類內(nèi)心本質(zhì)的對嶄新未來的渴望,那是一種真正的“內(nèi)啡肽”。

未來:技術(shù)為王

由于當(dāng)前最大的開源生態(tài)是以 SD 為導(dǎo)向,因此本文所談?wù)摰募夹g(shù)動(dòng)向皆來自于 SD 大生態(tài)。MJ 在算法本質(zhì)上與 SD 同宗同源且大同小異,其關(guān)鍵為不斷進(jìn)化的數(shù)據(jù)集和美學(xué)算法增強(qiáng),期待 MJ 開源的那一日,與世人共享其普惠萬物的力量。

(一)二次元模型開辟可商用垂直模型先河

以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態(tài)的想象空間,其近乎可商業(yè)化的使用體驗(yàn)也開辟了“萬物皆可垂直”的垂直模型先河,彌補(bǔ)了像 SD 這種大通用模型在個(gè)別美學(xué)領(lǐng)域的“力不從心”。當(dāng)然在這個(gè)過程中也是伴隨著詬病、質(zhì)疑和抨擊,但商業(yè)與技術(shù)應(yīng)該一分為二去看待。

以 NovelAI Diffusion 為例

由原本做 AIGC 生成小說內(nèi)容的商業(yè)實(shí)體 Novel 推出,基于 SD 算法框架和 Danbooru 二次元圖庫數(shù)據(jù)集進(jìn)行訓(xùn)練和優(yōu)化,被外網(wǎng)稱為“最強(qiáng)二次元生成模型”。

除去手部細(xì)節(jié),NovelAI 的出圖質(zhì)量可謂上乘。最大的功勞來自 Danbooru,是一個(gè)二次元圖片堆圖網(wǎng)站,會標(biāo)注畫師名、原作、角色,以及像文字描述一遍畫面內(nèi)容的詳細(xì) tag(可能會詳細(xì)到角色的發(fā)型發(fā)色、外貌特征、服裝、姿勢表情、包含一些其他可識別內(nèi)容的程度),而這些對擴(kuò)散模型的訓(xùn)練尤為重要,省去了大量的人工篩選標(biāo)注工作。

Danbooru 的商業(yè)定位也給了 NovelAI “可乘之機(jī)”:根據(jù)搜索結(jié)果內(nèi)容量來看,這個(gè)網(wǎng)站是其他用戶自發(fā)保存(例如在推上有一些熱度的繪畫作品)并上傳上去的,所以在日本一直有這個(gè)網(wǎng)站無授權(quán)轉(zhuǎn)載的爭議。關(guān)于這次 AI 學(xué)習(xí)素材庫的事情,Danbooru方面也有做出回應(yīng):與包括NovelAI 在內(nèi)的 AI 作畫網(wǎng)站沒什么關(guān)系,且不認(rèn)可他們的行為。

(注:以上相關(guān)內(nèi)容引用自微博大 V:夜露·茍·布魯圖斯)

但從正面意義來看,NovelAI 的確也在技術(shù)上給 SD 帶來了新的空間,就連 StabilityAI 的老板 Emad 也在推特上宣傳到:“NovelAI 的技術(shù)工作是對 SD 極大的提升,包括手指修復(fù)、任意分辨率等等?!睂夹g(shù)感興趣的可以看一看官方博客blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac中對 SD 的改進(jìn)工作,大致是修改了 SD 模型架構(gòu)及訓(xùn)練過程。

像 NovelAI 這類的二次元模型對于用戶輸入的描述詞的專業(yè)程度要求較高,如下所示:

colorful painting, ((chinese colorful ink)), (((Chinese color ink painting style))), (((masterpiece))), (((best quality))),((Ultra-detailed, very precise detailed)),

(((a charming Chinese girl,1girl,solo,delicate beautiful face))), (Floating),(illustration),(Amazing),(Absurd),((sharp focus)), ((extremely detailed)), ((high saturation)), (surrounded by color ink splashes),((extremely detailed body)),((colorful))

不僅需要描述人物,更是要對人物的二次元細(xì)節(jié)進(jìn)行刻畫,甚至還要加一些有助于畫質(zhì)增強(qiáng)的詞匯,這一系列操作被網(wǎng)友戲稱為“咒語”,就像要進(jìn)入一個(gè)二次元世界一般,首先你要學(xué)會“念咒”。好在社區(qū)力量是無限的,陸續(xù)出現(xiàn)了很多“寶典”,如《元素法典》元素法典——Novel AI 元素魔法全收錄docs.qq.com/doc/DWHl3am5Zb05QbGVs和元素法典 第二卷——Novel AI 元素魔法全收錄docs.qq.com/doc/DWEpNdERNbnBRZWNL,將二次元的“心法口訣”公諸于眾,且全民共創(chuàng),這很“二次元”。

(二)AI 畫二次元漫畫逐漸可行

二次元模型對于畫特定形象的人物十分擅長,比如在如下的連續(xù)出圖中,我們大致可以認(rèn)為都是一個(gè)“主人公”(稱之為白小蘇蘇)在變 Pose 或者換裝。因?yàn)槲覀兘o予 AI 的描述中對該人物進(jìn)行了極為細(xì)致的刻畫,就像固定了她的基因一般,加上二次元模型本身對于人物的勾畫(平圖)相對于真實(shí)人物就“粗放”一些,只要重要人物特征一致,便可以判別為同一個(gè)人。

{profile picture},{an extremely delicate and beautiful girl}, cg 8k wallpaper, masterpiece, cold expression, handsome, upper body, looking at viewer, school uniform, sailor suit, insanity, white hair, messy long hair, red eyes, beautiful detailed eyes {{a black cross hairpin}}, handsome,Hair glows,dramatic angle

直譯為:

{頭像},{一個(gè)極其精致美麗的女孩},cg 8k墻紙,杰作,冷漠的表情,英俊,上半身,看著觀眾,校服,水手服,瘋狂,白發(fā),凌亂的長發(fā),紅色的眼睛,美麗細(xì)致的眼睛{{一個(gè)黑色的十字發(fā)夾}},英俊,頭發(fā)發(fā)光,戲劇性的角度

于是進(jìn)一步的,可以通過“底圖模式”去約束人物的動(dòng)作表達(dá)或者情節(jié)表達(dá),再配上同樣的人物特征關(guān)鍵詞描述,便可以輸出該人物動(dòng)漫劇情般的“生命周期”,她不再活在一幅圖中。何為“底圖”控制,如下所示:

圖片來源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

給 AI 上傳左邊的“粗制圖”,是為底圖,底圖負(fù)責(zé)勾勒畫面的大體結(jié)構(gòu),但未對人物細(xì)節(jié)進(jìn)行刻畫,隨后由 AI 將人物特征細(xì)節(jié)進(jìn)行“填充”,便會出現(xiàn)同一主人公擺出不同 Pose 的漫畫劇情。

圖片來源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

最后再配上文字、漫畫格式框,稍微經(jīng)過 PS 整合,便能出來一幅像模像樣的漫畫了。

圖片來源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

當(dāng)然上述都是基于現(xiàn)在 AI 模型的發(fā)展所提出的“妥協(xié)”手段,實(shí)際上我們在畫二次元漫畫時(shí)應(yīng)該追求絕對的主人公一致性(真正是同一個(gè)人物)和更為精準(zhǔn)的動(dòng)作控制、背景控制甚至數(shù)量控制和表情控制等等,而這些都需要借助更為先進(jìn)的技術(shù),即如下所要講述的模型訓(xùn)練和以交叉注意力為代表的精準(zhǔn)控制技術(shù)。

(三)開放模型訓(xùn)練催生“萬物皆可垂直”

隨著二次元模型的成功流行,人們也越來越渴望更多類似的模型出現(xiàn),以解決五花八門的創(chuàng)作需求。一個(gè)中心化的商業(yè)平臺便需要做出一個(gè)大而全的產(chǎn)品以迎合用戶需求,但面對指數(shù)級的市場增長,這顯然是不現(xiàn)實(shí)的。最佳解決辦法便是交給一個(gè)去中心化的自組織生態(tài),像迸發(fā)二次元模型一樣實(shí)現(xiàn)模型的“涌現(xiàn)”,去解決人們?nèi)找嬖鲩L的創(chuàng)作需求。這便特別需要一種開放模型的力量,而 SD 在開源之處便將這種力量完全交給了所有人,每個(gè)人都可以去獲得算法模型,都可以去訓(xùn)練自己的模型。于是,創(chuàng)作無限,模型涌現(xiàn)!

模型訓(xùn)練技術(shù)分 Checkpoint Merger(檢查點(diǎn)合并)、Textual Inversion(Embedding 嵌入模型)、Hypernetwork(超網(wǎng)絡(luò)模型)、Aesthetic Gradient(審美梯度)以及重量級的 Dreambooth 等。其中以 Textual Inversion 和 Dreambooth 最為流行,分別有著不同的技術(shù)原理和優(yōu)勢。

知名博主“Simon 的白日夢“在微博分享了自己使用 SD 的 Textual Inversion 技術(shù)訓(xùn)練的“黏菌衛(wèi)星圖”案例。首先需要準(zhǔn)備訓(xùn)練數(shù)據(jù)集,大概一萬張衛(wèi)星地圖;我們都知道 SD 模型本身要么只能單獨(dú)出城市衛(wèi)星圖,要么只能出黏菌圖;博主通過 Textual Inversion 再次訓(xùn)練之后,成功地把城市衛(wèi)星圖肌理和黏菌的微觀結(jié)構(gòu)融合在了一起。

再分享另外一個(gè)知名博主“大谷 Spitzer”使用 Textual Inversion 進(jìn)行“分鏡設(shè)計(jì)”的案例。我們在上面提到要做二次元漫畫離不開固定主人公形象,所謂分鏡設(shè)計(jì)便是能否用 AI 繪制出獨(dú)特且相貌保持連續(xù)性的動(dòng)漫角色。大谷用 Textual Inversion + 自制數(shù)據(jù)集訓(xùn)練了 6、7 種不同的相貌作為臉部基因。之后在輸入給 AI 的文字中,即可通過改變訓(xùn)練好的幾個(gè)相貌 tag 的比例權(quán)重,融合出現(xiàn)實(shí)里不存在,同時(shí)在系列圖片里長相可以保持一致的角色。如下兩幅圖便是不同比例權(quán)重下出現(xiàn)的兩位“主人公”,而對于同一位主人公,可以通過 AI 讓其出現(xiàn)在各種各樣的場景。比如“太空之聲”里的女孩是同一個(gè)形象的不同故事表達(dá),而“都市探員”里的主人公膚色更深、形象健碩,真的像一名探員。

 

在具體操作上,正如“Simon 的白日夢”所說:

當(dāng)你輸入一個(gè)模型中沒有的概念,例如生成一個(gè)“Simon 的白日夢 up 主的照片”,因?yàn)?sd 模型沒有見過我,自然不能生成我的照片。但是注意,其實(shí) sd 模型中是具備生成我的照片的所有要素的的能力,畢竟我只是一個(gè)普通的中國技術(shù)宅,模型中應(yīng)該有不少亞洲人的特征可以用于合成。

那這時(shí)候給出幾張我的照片(坐標(biāo)也可以通過編碼圖片獲得),對比剛才說的文字提示,訓(xùn)練 textual inversion,其實(shí)是告訴模型“我是誰”,從而獲得根據(jù)我的文字提示獲得一個(gè)更準(zhǔn)確的坐標(biāo)。因此,訓(xùn)練完后,我們會發(fā)現(xiàn)并沒有生成新的模型 ckpt 文件,而是得到了一個(gè)幾十 k 大小的 .pt 文件,然后下次啟動(dòng) stable diffuison webui 的時(shí)候就可以掛載這個(gè)文件,當(dāng)我下次再輸入“Simon 的白日夢 up 主的照片”這段文字的時(shí)候,模型就會讀取這個(gè) .pt 文件里邊的準(zhǔn)確坐標(biāo),并和其它文字描述包含的坐標(biāo)融合,然后生成更符合文字描述的圖片。

社區(qū)也在利用 Textual Inversion 為二次元模型豐富其尚不能繪制的形象,比如很多國產(chǎn)動(dòng)漫角色,如秦時(shí)明月。只要有合法的數(shù)據(jù)集,技術(shù)都是現(xiàn)成的,通過算力讓人物形象在 AI 的世界“凝聚”。

embedding即為Textual Inversion

Textual Inversion 的優(yōu)勢是輕量級、簡單上手。它可以對主體(object)進(jìn)行訓(xùn)練,讓 AI 記住這個(gè)“人”或“物”,也可以對畫風(fēng)(style)進(jìn)行訓(xùn)練,比如可以記住某位在世藝術(shù)家的畫風(fēng)然后讓 AI 以此畫風(fēng)來畫任何事物;訓(xùn)練出的模型文件可以直接掛載到 SD 模型框架中,類似 Linux 開放時(shí)代不斷完善的動(dòng)態(tài)連接庫,因此對 SD 也是友好的。但劣勢是,效果較為粗糙,目前尚未有可以進(jìn)入商業(yè)化產(chǎn)品效果的模型出現(xiàn),社區(qū)更多期待給予了另外一項(xiàng)技術(shù)——Dreambooth。

相較于 Textual Inversion 等在 SD 框架上的增添,Dreambooth 是直接調(diào)整整個(gè) SD 模型本身,SD 模型是一個(gè)大概 4G 左右的 ckpt 文件,經(jīng)過 Dreambooth 重訓(xùn)模型后,會生成一個(gè)新的 ckpt 文件,是一種深度融合。因此 Dreambooth 的訓(xùn)練會更為復(fù)雜苛刻。

由于 dreambooth 會將訓(xùn)練對模型的影響鎖定在某一種物體的類別內(nèi),所以訓(xùn)練的時(shí)候不僅需要描述的文字、對應(yīng)圖片,還需要告訴模型你訓(xùn)練的物體的類別(訓(xùn)練完使用的時(shí)候,也要同時(shí)在 prompt 中包含類別和 token 關(guān)鍵字),并且用訓(xùn)練前的模型先生成一系列這一種類物體的正則化圖片(regularization image)用于后續(xù)和你給的圖片做半監(jiān)督訓(xùn)練。所以,生成正則化圖片要消耗額外的圖片(一般要 1K+,但是可以用別人生成好的);訓(xùn)練的時(shí)候因?yàn)槭钦{(diào)整整個(gè)模型(即便只是模型中的部分參數(shù)),對算力和時(shí)間要求也比較高。我在本地一塊 3090 上訓(xùn)練時(shí)顯存占用達(dá)到 23.7G,訓(xùn)練 10K 張 10000epoch 需要 4 個(gè)半小時(shí)。

—— Simon 的白日夢

黏菌衛(wèi)星圖模型兩種訓(xùn)練效果對比,dreambooth更勝一籌

再回到二次元這個(gè)話題,同樣有大 V 利用 Dreambooth 訓(xùn)練出了一個(gè)賽博風(fēng)的二次元模型——Cyberpunk Anime Diffusion,由“大谷 Spitzer”開發(fā),現(xiàn)已開源。

Cyberpunk Anime Diffusion開源huggingface.co/DGSpitzer/Cyberpunk-Anime-Diffusion

提這種模型并不是打廣告,而是致敬其開創(chuàng)意義,起碼在國內(nèi)都是值得后來者去模仿和超越的。Cyberpunk Anime Diffusion 汲取了大量《賽博朋克:邊緣行者》畫風(fēng)素材,在基礎(chǔ)模型上使用的是一個(gè)基于 Waifu Diffusion V1.3 + Stable Diffusion V1.5 VAE 的融合模型,然后用 Dreambooth 導(dǎo)入自定義數(shù)據(jù)集訓(xùn)練了 13700 步就獲得了以下的生成效果(使用方法,在 prompt 中加入關(guān)鍵詞"dgs illustration style")。

憑借著對底層基礎(chǔ)模型更為深度地改進(jìn),Dreambooth 也被稱為“核彈級技術(shù)”。同 textual inversion 一樣,dreambooth 也可以訓(xùn)練主體、記住主體,比如輸入幾張自己的照片(家里的小狗),dreambooth 就會記住照片中的物體長什么樣,然后就能把這個(gè)物體作為關(guān)鍵詞套用到任何場景和風(fēng)格中,“一鍵實(shí)現(xiàn)無限分鏡”。

Dreambooth技術(shù)最早來自google論文,此為論文中的案例,一只現(xiàn)實(shí)小狗無限藝術(shù)分鏡

同樣可以人也可以,比如給自己來張自拍,然后讓自己出現(xiàn)在藝術(shù)的大千世界中。

記住主體更大的意義是,可以對主體進(jìn)行“屬性修改”。比如當(dāng) AI 記住了輸入的“小汽車”后,便可以隨心所欲地對其顏色進(jìn)行更改,而其他特征保持一致。再回到二次元漫畫那個(gè)話題,這種精準(zhǔn)屬性控制技術(shù)也是其關(guān)鍵推動(dòng)技術(shù)之一。

正如 《上線一個(gè)月成為準(zhǔn)獨(dú)角獸、上萬人排隊(duì)注冊,AI Art是下一個(gè)NFT?》一文中寫到:

“2022 年,可稱為被 Diffusion 開啟的 AI Art 元年。接下來的三至五年內(nèi),AI Art 將會往更加自由的方向發(fā)展,比如展現(xiàn)出更強(qiáng)的耦合性,可被用戶定制的空間更大,也就是說更貼近“主觀創(chuàng)作”的過程,藝術(shù)作品中也會分化和體現(xiàn)出越來越細(xì)致的用戶想法。Google 近期上線的 DreamBooth AI 已經(jīng)展現(xiàn)出了這一特點(diǎn)?!?/p>

除了上述對主體的訓(xùn)練,Dreambooth 最常被用來“記住”畫風(fēng),即訓(xùn)練 style。上述博主(“地球土著座一億”)用了十張夏阿老師的畫,通過 dreambooth “記住”了他的畫風(fēng),效果對比如下。

(備注:夏阿是出生于揚(yáng)州,定居于南京的 80 后插畫師。因 2014 年經(jīng)常在網(wǎng)上發(fā)布“穿越”“混搭”“搞笑”類的國畫作品,深受網(wǎng)友喜愛而“走紅”。)

如下為夏阿的原作——

如下為 dreambooth 的訓(xùn)練效果出圖——

不論是輕量級的 Textual Inversion,還是重量級的 Dreambooth,抑或介于二者之間的如 Hypernetwork(超網(wǎng)絡(luò)模型)和 Aesthetic Gradient(審美梯度)等,包括更多的原生模型訓(xùn)練方式:模型融合、微調(diào)(Fine Tuning)等,都是現(xiàn)階段輸出更加可商業(yè)化新模型的利器。短短一個(gè)月時(shí)間便已經(jīng)涌現(xiàn)出了大量在概念驗(yàn)證階段的垂直模型,五彩繽紛。

社區(qū)基于 Textual Inversion 訓(xùn)練的模型大全開源庫——

sd-concepts-libraryhuggingface.co/sd-concepts-library

社區(qū)基于 Dreambooth 訓(xùn)練的模型大全開源庫——

sd-dreambooth-library (Stable Diffusion Dreambooth Concepts Library)huggingface.co/sd-dreambooth-library

采用更多訓(xùn)練技術(shù)的模型大全站點(diǎn) Civitai——

Civitai | Share your modelscivitai.com/?continueFlag=9d30e092b76ade9e8ae74be9df3ab674&model=20

如果說 SD 為 AI 藝術(shù)打開了第一扇窗戶,那么今天這些五光十色、極具創(chuàng)意的“大千”模型則為 AI 藝術(shù)打開了第一扇大門。尤其在 Dreambooth 模型生態(tài)中,有能夠?qū)崿F(xiàn)迪士尼風(fēng)的模型、有當(dāng)下 MJ 生態(tài)最火的機(jī)甲風(fēng)模型……

https://huggingface.co/nitrosocke/mo-di-diffusion

https://github.com/nousr/robo-diffusion

(四)交叉注意力實(shí)現(xiàn)畫面的精準(zhǔn)控制

開放模型的出現(xiàn)給予了降維解決一切難題的方式,真正實(shí)現(xiàn)了“創(chuàng)造”二字。與此同時(shí),也不能忽略一些輔助技術(shù)的發(fā)展,還是拿二次元漫畫為例,我們不免要對一些更細(xì)節(jié)的繪制表現(xiàn)進(jìn)行控制。如下,我們希望保留汽車和樹木背景,但改變在它上面的“主人公”;或者將一幅現(xiàn)實(shí)照片進(jìn)行漫畫風(fēng)格的變化,以做漫畫敘事背景設(shè)計(jì)。

開源連接——

Cross Attention Controlgithub.com/bloc97/CrossAttentionControl/blob/main/CrossAttention_Release.ipynb

這就是所謂的交叉注意力控制(Cross-Attention Control)技術(shù),連 StabilityAI 創(chuàng)始人也不禁為這項(xiàng)技術(shù)點(diǎn)贊:“在類似技術(shù)幫助下,你可以去創(chuàng)造任何你夢想的事物。”

該項(xiàng)目開源連接——

GitHub - google/prompt-to-promptgithub.com/google/prompt-to-prompt

在這個(gè)項(xiàng)目 demo 中,可以改變主人公“小貓”的坐騎,可以給背景畫一道彩虹,可以讓擁擠的路上變得空曠。在如下類似的研究項(xiàng)目中,還可以做到讓主人公豎大拇指、讓兩只鳥 kiss、讓一個(gè)香蕉變兩個(gè)。

不論是【Imagic】還是【Prompt-to-Prompt】,精準(zhǔn)控制技術(shù)對于實(shí)現(xiàn) AI 繪圖的自主可控十分重要,也是構(gòu)建二次元漫畫體系比較重要的技術(shù)動(dòng)向之一,目前尚處于行業(yè)研究前沿。

(五)精準(zhǔn)控制系列之 Inpainting 和 Outpainting

說到了精準(zhǔn)控制,它不是某一項(xiàng)技術(shù),交叉注意力是其一,還有很多輔助性手段為其服務(wù),最為流行和商業(yè)成熟的是 inpainting 和 outpainting 技術(shù)。這是傳統(tǒng)設(shè)計(jì)領(lǐng)域的概念,AI 藝術(shù)也繼承了過來。當(dāng)前 SD 也推出了 inpainting 功能,可翻譯為“涂抹”,即對于畫面中不滿意的部分進(jìn)行“涂抹”,然后 AI 會在涂抹區(qū)重新生成想要替換的內(nèi)容,具體見下圖操作。

開源地址——

Runway MLgithub.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion

同樣以二次元漫畫這個(gè)終極追求為例,當(dāng)需要給女主人公增加一位帥氣的男士時(shí),便可以在她旁邊區(qū)域進(jìn)行涂抹,然后附上一段霸道總裁的關(guān)鍵詞 prompt,AI 便會給女主一段“姻緣”。

另外一項(xiàng)技術(shù) outpainting,被譽(yù)為“無限畫布”,最早出現(xiàn)在 Dalle2 的商業(yè)產(chǎn)品體系中,當(dāng)時(shí)也是震驚世人。簡單來講,將一張需要擴(kuò)展的圖上傳給 AI,outpainting 便會在這張圖的四周擴(kuò)展出“無限的”畫布,至于填充什么內(nèi)容,也完全交給用戶自己輸入的 prompt 決定,無限畫布,無限想象空間。如下利用 outpainting 為一幅經(jīng)典名畫填充了大量背景,產(chǎn)生了令人驚喜的效果。如今 SD 生態(tài)也擁有了自己的 outpainting 技術(shù),開源地址——

Stablediffusion Infinity - a Hugging Face Space by lnyanhuggingface.co/spaces/lnyan/stablediffusion-infinity?continueFlag=27a69883d2968479d88dcb66f1c58316

在 outpainting 的加持下,不僅可以為一幅單調(diào)的圖加無限的背景,更可以極大拓展 AI 藝術(shù)出圖的尺寸,在 SD 生態(tài)一般出圖為幾百像素,遠(yuǎn)遠(yuǎn)不能滿足大尺寸海報(bào)的需求,而 outpainting 技術(shù)便可以極大擴(kuò)展 AI 藝術(shù)原生出圖的尺寸。同樣對于二次元漫畫,甚至可以在一幅圖中展現(xiàn)所有“參演人員”的形色百態(tài)。

(六)其他更多技術(shù)概念

除了上述重要技術(shù)外,還有很多細(xì)分技術(shù)被社區(qū)津津樂道。

可以利用 Deforum 做 SD 動(dòng)畫

SD動(dòng)畫colab.research.google.com/github/deforum/stable-diffusion/blob/main/Deforum_Stable_Diffusion.ipynb

知名博主“海辛 Hyacinth”也給出了一個(gè)完整制作 AI 動(dòng)畫的工作流——

其中提到了多種技術(shù),如利用 inpainting 修改細(xì)節(jié),用 outpainting 向外擴(kuò)展,用 dreambooth 做動(dòng)畫主角,用 Deforum 不斷生成改變、用 coherence 進(jìn)行連續(xù)性控制、用 flowframe 補(bǔ)幀等等。更做二次元漫畫一樣,也是一項(xiàng)系統(tǒng)性工程。

prompt 逆向反推

整個(gè) AI 藝術(shù)最關(guān)鍵的是 prompt,尤其對于新人用戶,能否獲得好的 prompt 是其能否獲得優(yōu)質(zhì)出圖的關(guān)鍵所在,因此很多產(chǎn)品化的 AI 工具都會在用戶輸入 prompt 這方面進(jìn)行改進(jìn)。除了大量可以獲取關(guān)鍵詞的搜索引擎網(wǎng)站外,逆向反推成為了一項(xiàng)重要輔助手段。所謂逆向反推,即給出一張圖片,可以是真實(shí)世界的,也可以來自 AI 生成,逆向反推技術(shù)便可以輸出能夠繪制該畫面的 prompt。雖然在實(shí)際效果中,無法反推出生成效果一模一樣的 prompt,但這給予了很多新人用戶獲取帶有復(fù)雜藝術(shù)修飾的 prompt 的途徑。如下名為 guess 的逆向反推工具為一張圖片反推出關(guān)鍵詞,其開源地址——

GitHub - huo-ju/dfserver: A distributed backend AI pipeline servergithub.com/huo-ju/dfserver

還有一款名為 CLIP Interrogator 的工具,使用連接如下——

CLIP Interrogator - a Hugging Face Space by pharmahuggingface.co/spaces/pharma/CLIP-Interrogator

 

類似的還有 methexis-inc 發(fā)布的 img2prompt——

Run with an API on Replicatereplicate.com/methexis-inc/img2prompt

除了直接以圖片進(jìn)行反推外,還有一種工具如 Prompt Extend,可以一鍵加長 Prompt,可以將一個(gè)小白用戶輸入的“太陽”一鍵加長到帶有豐富藝術(shù)修飾的“大神級”描述,工具地址——

Prompt Extend - a Hugging Face Space by dasparthohuggingface.co/spaces/daspartho/prompt-extend

搜索引擎

說到 prompt,不得不說被譽(yù)為寶庫的各大搜索引擎網(wǎng)站——

OpenArtopenart.ai/?continueFlag=df21d925f55fe34ea8eda12c78f1877d

KREA — explore great prompts.www.krea.ai/

Krea開源地址github.com/krea-ai/open-prompts

Just a moment...lexica.art/

 

在搜索引擎中搜索自己想要的畫面,便會呈現(xiàn)符合主題的配圖及其對應(yīng)的 prompt。還有不直接給 prompt 搜索,而是引導(dǎo)用戶一步步構(gòu)建 prompt 的提示性工具——

Stable Diffusion prompt Generator - promptoMANIApromptomania.com/stable-diffusion-prompt-builder/

Public Promptspublicprompts.art/

如上圖,可根據(jù)網(wǎng)站提示,一步步構(gòu)建出一幅“美麗的面孔”。在這些工具的加持下,即便從未接觸過 AI 藝術(shù)的用戶,在短短幾天內(nèi)也能逐漸摸清構(gòu)建 prompt 的精髓。

(七)除了作圖,更多 AI 藝術(shù)領(lǐng)域

AI 藝術(shù)從 AI 作圖開始,也稱之為 text-to-image,但時(shí)至今日,藝術(shù)并不局限于圖片,AI 藝術(shù)也不局限于 AI 作圖,更多的 text-to-X 開始預(yù)示著未來 AI 藝術(shù)的新形態(tài)。最為知名的有:

text-to-3D

即文本生成 3D 模型,同樣在 SD 生態(tài)也有類似項(xiàng)目,地址如下——

Stable Dreamfusiongithub.com/ashawkey/stable-dreamfusion/blob/main/gradio_app.py

圖片來源:量子位《Text-to-3D!建筑學(xué)小哥自稱編程菜鳥,攢了個(gè)AI作畫三維版,還是彩色的》

在給 AI 輸入“一幅美麗的花樹畫,作者 Chiho Aoshima,長鏡頭,超現(xiàn)實(shí)主義”,就能瞬間得到一個(gè)長這樣的花樹視頻,時(shí)長 13 秒。這個(gè) text-to-3D 項(xiàng)目叫 dreamfields3D,現(xiàn)已開源——

dreamfields3Dgithub.com/shengyu-meng/dreamfields-3D

除此之外,還有個(gè)項(xiàng)目叫 DreamFusion,地址——

DreamFusion: Text-to-3D using 2D Diffusiondreamfusionpaper.github.io

演示視頻地址video.weibo.com/show?fid=1034:4819230823219243

DreamFusion 有著較好的 3D 效果,也被 SD 生態(tài)嫁接到了 SD 實(shí)現(xiàn)中,開源地址——

DreamFusiongithub.com/ashawkey/stable-dreamfusion

還有 如 3DiM, 可以從單張 2D 圖片直接生成 3D 模型;英偉達(dá)開源 3D 模型生成工具,GET3D——

GET3D開源地址github.com/nv-tlabs/GET3D

text-to-Video

Phenaki 演示video.weibo.com/show?fid=1034:4821392269705263

文本生成視頻對技術(shù)要求極大,目前只有 google 和 meta 在爭相發(fā)布體驗(yàn)性質(zhì)的產(chǎn)品,知名的如 Phenaki、Imagen Video 和 Make-A-Video。其中 Phenaki 可以在 22 秒內(nèi)生成一個(gè) 128*128 8fps 的長達(dá) 30 秒的短視頻。而 Imagen Video 可以生成清晰度更高的視頻,可達(dá) 1280*768 24fps。

text-to-Music

文本生成音樂,如項(xiàng)目 Dance Diffusion,試玩地址——

Dance Diffusioncolab.research.google.com/github/Harmonai-org/sample-generator/blob/main/Dance_Diffusion.ipynb#scrollTo=HHcTRGvUmoME

可以通過文本描述生成“在風(fēng)聲中吹口哨”、“警報(bào)器和嗡嗡作響的引擎接近后走遠(yuǎn)”等特殊聲音效果。

寫在最后

技術(shù),永無止境,則 AI 藝術(shù),永無止境。最后,以 StabilityAI 首席信息官 Daniel Jeffries 的一段話做結(jié)束——

“我們要建立一個(gè)充滿活力、活躍、智能內(nèi)容規(guī)則的世界,一個(gè)充滿活力、你可以與之互動(dòng)的數(shù)字世界,共同創(chuàng)造的內(nèi)容,那是你的。加入到這股大潮吧,你將不再只是在未來的網(wǎng)絡(luò)上沖浪、被動(dòng)地消費(fèi)內(nèi)容。你將創(chuàng)造它!“

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

環(huán)旭電子

2.5k
  • 印尼央行稱正干預(yù)外匯市場以平抑市場波動(dòng)
  • 巴西對華平軋鋼板發(fā)起反傾銷日落復(fù)審調(diào)查

評論

暫無評論哦,快來評價(jià)一下吧!

下載界面新聞

微信公眾號

微博

萬字長文講透AI藝術(shù):緣起、意義和未來(下篇)

以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態(tài)的想象空間。

文|巴比特資訊

AI 藝術(shù)更為直接的是一場新消費(fèi)變革,但以未來為終局,其必將是一場新技術(shù)變革,這是自十多年前移動(dòng)互聯(lián)網(wǎng)革命以來久違的一幕,讓開源生態(tài)點(diǎn)燃的這星星之火燃遍新十年創(chuàng)業(yè)的每個(gè)角落。與區(qū)塊鏈引領(lǐng)的加密變革稍有不同,AIGC(AI 藝術(shù)所歸屬的大類)帶給人們的興奮感并不來自純金融和財(cái)富預(yù)期(“多巴胺”),更多的是發(fā)自人類內(nèi)心本質(zhì)的對嶄新未來的渴望,那是一種真正的“內(nèi)啡肽”。

未來:技術(shù)為王

由于當(dāng)前最大的開源生態(tài)是以 SD 為導(dǎo)向,因此本文所談?wù)摰募夹g(shù)動(dòng)向皆來自于 SD 大生態(tài)。MJ 在算法本質(zhì)上與 SD 同宗同源且大同小異,其關(guān)鍵為不斷進(jìn)化的數(shù)據(jù)集和美學(xué)算法增強(qiáng),期待 MJ 開源的那一日,與世人共享其普惠萬物的力量。

(一)二次元模型開辟可商用垂直模型先河

以 NovelAI Diffusion、Waifu Diffusion、trinart 等為代表的二次元模型以其驚人的“平圖”效果極大地拓展了 SD 模型和生態(tài)的想象空間,其近乎可商業(yè)化的使用體驗(yàn)也開辟了“萬物皆可垂直”的垂直模型先河,彌補(bǔ)了像 SD 這種大通用模型在個(gè)別美學(xué)領(lǐng)域的“力不從心”。當(dāng)然在這個(gè)過程中也是伴隨著詬病、質(zhì)疑和抨擊,但商業(yè)與技術(shù)應(yīng)該一分為二去看待。

以 NovelAI Diffusion 為例

由原本做 AIGC 生成小說內(nèi)容的商業(yè)實(shí)體 Novel 推出,基于 SD 算法框架和 Danbooru 二次元圖庫數(shù)據(jù)集進(jìn)行訓(xùn)練和優(yōu)化,被外網(wǎng)稱為“最強(qiáng)二次元生成模型”。

除去手部細(xì)節(jié),NovelAI 的出圖質(zhì)量可謂上乘。最大的功勞來自 Danbooru,是一個(gè)二次元圖片堆圖網(wǎng)站,會標(biāo)注畫師名、原作、角色,以及像文字描述一遍畫面內(nèi)容的詳細(xì) tag(可能會詳細(xì)到角色的發(fā)型發(fā)色、外貌特征、服裝、姿勢表情、包含一些其他可識別內(nèi)容的程度),而這些對擴(kuò)散模型的訓(xùn)練尤為重要,省去了大量的人工篩選標(biāo)注工作。

Danbooru 的商業(yè)定位也給了 NovelAI “可乘之機(jī)”:根據(jù)搜索結(jié)果內(nèi)容量來看,這個(gè)網(wǎng)站是其他用戶自發(fā)保存(例如在推上有一些熱度的繪畫作品)并上傳上去的,所以在日本一直有這個(gè)網(wǎng)站無授權(quán)轉(zhuǎn)載的爭議。關(guān)于這次 AI 學(xué)習(xí)素材庫的事情,Danbooru方面也有做出回應(yīng):與包括NovelAI 在內(nèi)的 AI 作畫網(wǎng)站沒什么關(guān)系,且不認(rèn)可他們的行為。

(注:以上相關(guān)內(nèi)容引用自微博大 V:夜露·茍·布魯圖斯)

但從正面意義來看,NovelAI 的確也在技術(shù)上給 SD 帶來了新的空間,就連 StabilityAI 的老板 Emad 也在推特上宣傳到:“NovelAI 的技術(shù)工作是對 SD 極大的提升,包括手指修復(fù)、任意分辨率等等?!睂夹g(shù)感興趣的可以看一看官方博客blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac中對 SD 的改進(jìn)工作,大致是修改了 SD 模型架構(gòu)及訓(xùn)練過程。

像 NovelAI 這類的二次元模型對于用戶輸入的描述詞的專業(yè)程度要求較高,如下所示:

colorful painting, ((chinese colorful ink)), (((Chinese color ink painting style))), (((masterpiece))), (((best quality))),((Ultra-detailed, very precise detailed)),

(((a charming Chinese girl,1girl,solo,delicate beautiful face))), (Floating),(illustration),(Amazing),(Absurd),((sharp focus)), ((extremely detailed)), ((high saturation)), (surrounded by color ink splashes),((extremely detailed body)),((colorful))

不僅需要描述人物,更是要對人物的二次元細(xì)節(jié)進(jìn)行刻畫,甚至還要加一些有助于畫質(zhì)增強(qiáng)的詞匯,這一系列操作被網(wǎng)友戲稱為“咒語”,就像要進(jìn)入一個(gè)二次元世界一般,首先你要學(xué)會“念咒”。好在社區(qū)力量是無限的,陸續(xù)出現(xiàn)了很多“寶典”,如《元素法典》元素法典——Novel AI 元素魔法全收錄docs.qq.com/doc/DWHl3am5Zb05QbGVs和元素法典 第二卷——Novel AI 元素魔法全收錄docs.qq.com/doc/DWEpNdERNbnBRZWNL,將二次元的“心法口訣”公諸于眾,且全民共創(chuàng),這很“二次元”。

(二)AI 畫二次元漫畫逐漸可行

二次元模型對于畫特定形象的人物十分擅長,比如在如下的連續(xù)出圖中,我們大致可以認(rèn)為都是一個(gè)“主人公”(稱之為白小蘇蘇)在變 Pose 或者換裝。因?yàn)槲覀兘o予 AI 的描述中對該人物進(jìn)行了極為細(xì)致的刻畫,就像固定了她的基因一般,加上二次元模型本身對于人物的勾畫(平圖)相對于真實(shí)人物就“粗放”一些,只要重要人物特征一致,便可以判別為同一個(gè)人。

{profile picture},{an extremely delicate and beautiful girl}, cg 8k wallpaper, masterpiece, cold expression, handsome, upper body, looking at viewer, school uniform, sailor suit, insanity, white hair, messy long hair, red eyes, beautiful detailed eyes {{a black cross hairpin}}, handsome,Hair glows,dramatic angle

直譯為:

{頭像},{一個(gè)極其精致美麗的女孩},cg 8k墻紙,杰作,冷漠的表情,英俊,上半身,看著觀眾,校服,水手服,瘋狂,白發(fā),凌亂的長發(fā),紅色的眼睛,美麗細(xì)致的眼睛{{一個(gè)黑色的十字發(fā)夾}},英俊,頭發(fā)發(fā)光,戲劇性的角度

于是進(jìn)一步的,可以通過“底圖模式”去約束人物的動(dòng)作表達(dá)或者情節(jié)表達(dá),再配上同樣的人物特征關(guān)鍵詞描述,便可以輸出該人物動(dòng)漫劇情般的“生命周期”,她不再活在一幅圖中。何為“底圖”控制,如下所示:

圖片來源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

給 AI 上傳左邊的“粗制圖”,是為底圖,底圖負(fù)責(zé)勾勒畫面的大體結(jié)構(gòu),但未對人物細(xì)節(jié)進(jìn)行刻畫,隨后由 AI 將人物特征細(xì)節(jié)進(jìn)行“填充”,便會出現(xiàn)同一主人公擺出不同 Pose 的漫畫劇情。

圖片來源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

最后再配上文字、漫畫格式框,稍微經(jīng)過 PS 整合,便能出來一幅像模像樣的漫畫了。

圖片來源:wuhu動(dòng)畫人空間《AI 隨便畫畫就在二次元繪畫區(qū)殺瘋了?!》

當(dāng)然上述都是基于現(xiàn)在 AI 模型的發(fā)展所提出的“妥協(xié)”手段,實(shí)際上我們在畫二次元漫畫時(shí)應(yīng)該追求絕對的主人公一致性(真正是同一個(gè)人物)和更為精準(zhǔn)的動(dòng)作控制、背景控制甚至數(shù)量控制和表情控制等等,而這些都需要借助更為先進(jìn)的技術(shù),即如下所要講述的模型訓(xùn)練和以交叉注意力為代表的精準(zhǔn)控制技術(shù)。

(三)開放模型訓(xùn)練催生“萬物皆可垂直”

隨著二次元模型的成功流行,人們也越來越渴望更多類似的模型出現(xiàn),以解決五花八門的創(chuàng)作需求。一個(gè)中心化的商業(yè)平臺便需要做出一個(gè)大而全的產(chǎn)品以迎合用戶需求,但面對指數(shù)級的市場增長,這顯然是不現(xiàn)實(shí)的。最佳解決辦法便是交給一個(gè)去中心化的自組織生態(tài),像迸發(fā)二次元模型一樣實(shí)現(xiàn)模型的“涌現(xiàn)”,去解決人們?nèi)找嬖鲩L的創(chuàng)作需求。這便特別需要一種開放模型的力量,而 SD 在開源之處便將這種力量完全交給了所有人,每個(gè)人都可以去獲得算法模型,都可以去訓(xùn)練自己的模型。于是,創(chuàng)作無限,模型涌現(xiàn)!

模型訓(xùn)練技術(shù)分 Checkpoint Merger(檢查點(diǎn)合并)、Textual Inversion(Embedding 嵌入模型)、Hypernetwork(超網(wǎng)絡(luò)模型)、Aesthetic Gradient(審美梯度)以及重量級的 Dreambooth 等。其中以 Textual Inversion 和 Dreambooth 最為流行,分別有著不同的技術(shù)原理和優(yōu)勢。

知名博主“Simon 的白日夢“在微博分享了自己使用 SD 的 Textual Inversion 技術(shù)訓(xùn)練的“黏菌衛(wèi)星圖”案例。首先需要準(zhǔn)備訓(xùn)練數(shù)據(jù)集,大概一萬張衛(wèi)星地圖;我們都知道 SD 模型本身要么只能單獨(dú)出城市衛(wèi)星圖,要么只能出黏菌圖;博主通過 Textual Inversion 再次訓(xùn)練之后,成功地把城市衛(wèi)星圖肌理和黏菌的微觀結(jié)構(gòu)融合在了一起。

再分享另外一個(gè)知名博主“大谷 Spitzer”使用 Textual Inversion 進(jìn)行“分鏡設(shè)計(jì)”的案例。我們在上面提到要做二次元漫畫離不開固定主人公形象,所謂分鏡設(shè)計(jì)便是能否用 AI 繪制出獨(dú)特且相貌保持連續(xù)性的動(dòng)漫角色。大谷用 Textual Inversion + 自制數(shù)據(jù)集訓(xùn)練了 6、7 種不同的相貌作為臉部基因。之后在輸入給 AI 的文字中,即可通過改變訓(xùn)練好的幾個(gè)相貌 tag 的比例權(quán)重,融合出現(xiàn)實(shí)里不存在,同時(shí)在系列圖片里長相可以保持一致的角色。如下兩幅圖便是不同比例權(quán)重下出現(xiàn)的兩位“主人公”,而對于同一位主人公,可以通過 AI 讓其出現(xiàn)在各種各樣的場景。比如“太空之聲”里的女孩是同一個(gè)形象的不同故事表達(dá),而“都市探員”里的主人公膚色更深、形象健碩,真的像一名探員。

 

在具體操作上,正如“Simon 的白日夢”所說:

當(dāng)你輸入一個(gè)模型中沒有的概念,例如生成一個(gè)“Simon 的白日夢 up 主的照片”,因?yàn)?sd 模型沒有見過我,自然不能生成我的照片。但是注意,其實(shí) sd 模型中是具備生成我的照片的所有要素的的能力,畢竟我只是一個(gè)普通的中國技術(shù)宅,模型中應(yīng)該有不少亞洲人的特征可以用于合成。

那這時(shí)候給出幾張我的照片(坐標(biāo)也可以通過編碼圖片獲得),對比剛才說的文字提示,訓(xùn)練 textual inversion,其實(shí)是告訴模型“我是誰”,從而獲得根據(jù)我的文字提示獲得一個(gè)更準(zhǔn)確的坐標(biāo)。因此,訓(xùn)練完后,我們會發(fā)現(xiàn)并沒有生成新的模型 ckpt 文件,而是得到了一個(gè)幾十 k 大小的 .pt 文件,然后下次啟動(dòng) stable diffuison webui 的時(shí)候就可以掛載這個(gè)文件,當(dāng)我下次再輸入“Simon 的白日夢 up 主的照片”這段文字的時(shí)候,模型就會讀取這個(gè) .pt 文件里邊的準(zhǔn)確坐標(biāo),并和其它文字描述包含的坐標(biāo)融合,然后生成更符合文字描述的圖片。

社區(qū)也在利用 Textual Inversion 為二次元模型豐富其尚不能繪制的形象,比如很多國產(chǎn)動(dòng)漫角色,如秦時(shí)明月。只要有合法的數(shù)據(jù)集,技術(shù)都是現(xiàn)成的,通過算力讓人物形象在 AI 的世界“凝聚”。

embedding即為Textual Inversion

Textual Inversion 的優(yōu)勢是輕量級、簡單上手。它可以對主體(object)進(jìn)行訓(xùn)練,讓 AI 記住這個(gè)“人”或“物”,也可以對畫風(fēng)(style)進(jìn)行訓(xùn)練,比如可以記住某位在世藝術(shù)家的畫風(fēng)然后讓 AI 以此畫風(fēng)來畫任何事物;訓(xùn)練出的模型文件可以直接掛載到 SD 模型框架中,類似 Linux 開放時(shí)代不斷完善的動(dòng)態(tài)連接庫,因此對 SD 也是友好的。但劣勢是,效果較為粗糙,目前尚未有可以進(jìn)入商業(yè)化產(chǎn)品效果的模型出現(xiàn),社區(qū)更多期待給予了另外一項(xiàng)技術(shù)——Dreambooth。

相較于 Textual Inversion 等在 SD 框架上的增添,Dreambooth 是直接調(diào)整整個(gè) SD 模型本身,SD 模型是一個(gè)大概 4G 左右的 ckpt 文件,經(jīng)過 Dreambooth 重訓(xùn)模型后,會生成一個(gè)新的 ckpt 文件,是一種深度融合。因此 Dreambooth 的訓(xùn)練會更為復(fù)雜苛刻。

由于 dreambooth 會將訓(xùn)練對模型的影響鎖定在某一種物體的類別內(nèi),所以訓(xùn)練的時(shí)候不僅需要描述的文字、對應(yīng)圖片,還需要告訴模型你訓(xùn)練的物體的類別(訓(xùn)練完使用的時(shí)候,也要同時(shí)在 prompt 中包含類別和 token 關(guān)鍵字),并且用訓(xùn)練前的模型先生成一系列這一種類物體的正則化圖片(regularization image)用于后續(xù)和你給的圖片做半監(jiān)督訓(xùn)練。所以,生成正則化圖片要消耗額外的圖片(一般要 1K+,但是可以用別人生成好的);訓(xùn)練的時(shí)候因?yàn)槭钦{(diào)整整個(gè)模型(即便只是模型中的部分參數(shù)),對算力和時(shí)間要求也比較高。我在本地一塊 3090 上訓(xùn)練時(shí)顯存占用達(dá)到 23.7G,訓(xùn)練 10K 張 10000epoch 需要 4 個(gè)半小時(shí)。

—— Simon 的白日夢

黏菌衛(wèi)星圖模型兩種訓(xùn)練效果對比,dreambooth更勝一籌

再回到二次元這個(gè)話題,同樣有大 V 利用 Dreambooth 訓(xùn)練出了一個(gè)賽博風(fēng)的二次元模型——Cyberpunk Anime Diffusion,由“大谷 Spitzer”開發(fā),現(xiàn)已開源。

Cyberpunk Anime Diffusion開源huggingface.co/DGSpitzer/Cyberpunk-Anime-Diffusion

提這種模型并不是打廣告,而是致敬其開創(chuàng)意義,起碼在國內(nèi)都是值得后來者去模仿和超越的。Cyberpunk Anime Diffusion 汲取了大量《賽博朋克:邊緣行者》畫風(fēng)素材,在基礎(chǔ)模型上使用的是一個(gè)基于 Waifu Diffusion V1.3 + Stable Diffusion V1.5 VAE 的融合模型,然后用 Dreambooth 導(dǎo)入自定義數(shù)據(jù)集訓(xùn)練了 13700 步就獲得了以下的生成效果(使用方法,在 prompt 中加入關(guān)鍵詞"dgs illustration style")。

憑借著對底層基礎(chǔ)模型更為深度地改進(jìn),Dreambooth 也被稱為“核彈級技術(shù)”。同 textual inversion 一樣,dreambooth 也可以訓(xùn)練主體、記住主體,比如輸入幾張自己的照片(家里的小狗),dreambooth 就會記住照片中的物體長什么樣,然后就能把這個(gè)物體作為關(guān)鍵詞套用到任何場景和風(fēng)格中,“一鍵實(shí)現(xiàn)無限分鏡”。

Dreambooth技術(shù)最早來自google論文,此為論文中的案例,一只現(xiàn)實(shí)小狗無限藝術(shù)分鏡

同樣可以人也可以,比如給自己來張自拍,然后讓自己出現(xiàn)在藝術(shù)的大千世界中。

記住主體更大的意義是,可以對主體進(jìn)行“屬性修改”。比如當(dāng) AI 記住了輸入的“小汽車”后,便可以隨心所欲地對其顏色進(jìn)行更改,而其他特征保持一致。再回到二次元漫畫那個(gè)話題,這種精準(zhǔn)屬性控制技術(shù)也是其關(guān)鍵推動(dòng)技術(shù)之一。

正如 《上線一個(gè)月成為準(zhǔn)獨(dú)角獸、上萬人排隊(duì)注冊,AI Art是下一個(gè)NFT?》一文中寫到:

“2022 年,可稱為被 Diffusion 開啟的 AI Art 元年。接下來的三至五年內(nèi),AI Art 將會往更加自由的方向發(fā)展,比如展現(xiàn)出更強(qiáng)的耦合性,可被用戶定制的空間更大,也就是說更貼近“主觀創(chuàng)作”的過程,藝術(shù)作品中也會分化和體現(xiàn)出越來越細(xì)致的用戶想法。Google 近期上線的 DreamBooth AI 已經(jīng)展現(xiàn)出了這一特點(diǎn)。”

除了上述對主體的訓(xùn)練,Dreambooth 最常被用來“記住”畫風(fēng),即訓(xùn)練 style。上述博主(“地球土著座一億”)用了十張夏阿老師的畫,通過 dreambooth “記住”了他的畫風(fēng),效果對比如下。

(備注:夏阿是出生于揚(yáng)州,定居于南京的 80 后插畫師。因 2014 年經(jīng)常在網(wǎng)上發(fā)布“穿越”“混搭”“搞笑”類的國畫作品,深受網(wǎng)友喜愛而“走紅”。)

如下為夏阿的原作——

如下為 dreambooth 的訓(xùn)練效果出圖——

不論是輕量級的 Textual Inversion,還是重量級的 Dreambooth,抑或介于二者之間的如 Hypernetwork(超網(wǎng)絡(luò)模型)和 Aesthetic Gradient(審美梯度)等,包括更多的原生模型訓(xùn)練方式:模型融合、微調(diào)(Fine Tuning)等,都是現(xiàn)階段輸出更加可商業(yè)化新模型的利器。短短一個(gè)月時(shí)間便已經(jīng)涌現(xiàn)出了大量在概念驗(yàn)證階段的垂直模型,五彩繽紛。

社區(qū)基于 Textual Inversion 訓(xùn)練的模型大全開源庫——

sd-concepts-libraryhuggingface.co/sd-concepts-library

社區(qū)基于 Dreambooth 訓(xùn)練的模型大全開源庫——

sd-dreambooth-library (Stable Diffusion Dreambooth Concepts Library)huggingface.co/sd-dreambooth-library

采用更多訓(xùn)練技術(shù)的模型大全站點(diǎn) Civitai——

Civitai | Share your modelscivitai.com/?continueFlag=9d30e092b76ade9e8ae74be9df3ab674&model=20

如果說 SD 為 AI 藝術(shù)打開了第一扇窗戶,那么今天這些五光十色、極具創(chuàng)意的“大千”模型則為 AI 藝術(shù)打開了第一扇大門。尤其在 Dreambooth 模型生態(tài)中,有能夠?qū)崿F(xiàn)迪士尼風(fēng)的模型、有當(dāng)下 MJ 生態(tài)最火的機(jī)甲風(fēng)模型……

https://huggingface.co/nitrosocke/mo-di-diffusion

https://github.com/nousr/robo-diffusion

(四)交叉注意力實(shí)現(xiàn)畫面的精準(zhǔn)控制

開放模型的出現(xiàn)給予了降維解決一切難題的方式,真正實(shí)現(xiàn)了“創(chuàng)造”二字。與此同時(shí),也不能忽略一些輔助技術(shù)的發(fā)展,還是拿二次元漫畫為例,我們不免要對一些更細(xì)節(jié)的繪制表現(xiàn)進(jìn)行控制。如下,我們希望保留汽車和樹木背景,但改變在它上面的“主人公”;或者將一幅現(xiàn)實(shí)照片進(jìn)行漫畫風(fēng)格的變化,以做漫畫敘事背景設(shè)計(jì)。

開源連接——

Cross Attention Controlgithub.com/bloc97/CrossAttentionControl/blob/main/CrossAttention_Release.ipynb

這就是所謂的交叉注意力控制(Cross-Attention Control)技術(shù),連 StabilityAI 創(chuàng)始人也不禁為這項(xiàng)技術(shù)點(diǎn)贊:“在類似技術(shù)幫助下,你可以去創(chuàng)造任何你夢想的事物?!?/p>

該項(xiàng)目開源連接——

GitHub - google/prompt-to-promptgithub.com/google/prompt-to-prompt

在這個(gè)項(xiàng)目 demo 中,可以改變主人公“小貓”的坐騎,可以給背景畫一道彩虹,可以讓擁擠的路上變得空曠。在如下類似的研究項(xiàng)目中,還可以做到讓主人公豎大拇指、讓兩只鳥 kiss、讓一個(gè)香蕉變兩個(gè)。

不論是【Imagic】還是【Prompt-to-Prompt】,精準(zhǔn)控制技術(shù)對于實(shí)現(xiàn) AI 繪圖的自主可控十分重要,也是構(gòu)建二次元漫畫體系比較重要的技術(shù)動(dòng)向之一,目前尚處于行業(yè)研究前沿。

(五)精準(zhǔn)控制系列之 Inpainting 和 Outpainting

說到了精準(zhǔn)控制,它不是某一項(xiàng)技術(shù),交叉注意力是其一,還有很多輔助性手段為其服務(wù),最為流行和商業(yè)成熟的是 inpainting 和 outpainting 技術(shù)。這是傳統(tǒng)設(shè)計(jì)領(lǐng)域的概念,AI 藝術(shù)也繼承了過來。當(dāng)前 SD 也推出了 inpainting 功能,可翻譯為“涂抹”,即對于畫面中不滿意的部分進(jìn)行“涂抹”,然后 AI 會在涂抹區(qū)重新生成想要替換的內(nèi)容,具體見下圖操作。

開源地址——

Runway MLgithub.com/runwayml/stable-diffusion#inpainting-with-stable-diffusion

同樣以二次元漫畫這個(gè)終極追求為例,當(dāng)需要給女主人公增加一位帥氣的男士時(shí),便可以在她旁邊區(qū)域進(jìn)行涂抹,然后附上一段霸道總裁的關(guān)鍵詞 prompt,AI 便會給女主一段“姻緣”。

另外一項(xiàng)技術(shù) outpainting,被譽(yù)為“無限畫布”,最早出現(xiàn)在 Dalle2 的商業(yè)產(chǎn)品體系中,當(dāng)時(shí)也是震驚世人。簡單來講,將一張需要擴(kuò)展的圖上傳給 AI,outpainting 便會在這張圖的四周擴(kuò)展出“無限的”畫布,至于填充什么內(nèi)容,也完全交給用戶自己輸入的 prompt 決定,無限畫布,無限想象空間。如下利用 outpainting 為一幅經(jīng)典名畫填充了大量背景,產(chǎn)生了令人驚喜的效果。如今 SD 生態(tài)也擁有了自己的 outpainting 技術(shù),開源地址——

Stablediffusion Infinity - a Hugging Face Space by lnyanhuggingface.co/spaces/lnyan/stablediffusion-infinity?continueFlag=27a69883d2968479d88dcb66f1c58316

在 outpainting 的加持下,不僅可以為一幅單調(diào)的圖加無限的背景,更可以極大拓展 AI 藝術(shù)出圖的尺寸,在 SD 生態(tài)一般出圖為幾百像素,遠(yuǎn)遠(yuǎn)不能滿足大尺寸海報(bào)的需求,而 outpainting 技術(shù)便可以極大擴(kuò)展 AI 藝術(shù)原生出圖的尺寸。同樣對于二次元漫畫,甚至可以在一幅圖中展現(xiàn)所有“參演人員”的形色百態(tài)。

(六)其他更多技術(shù)概念

除了上述重要技術(shù)外,還有很多細(xì)分技術(shù)被社區(qū)津津樂道。

可以利用 Deforum 做 SD 動(dòng)畫

SD動(dòng)畫colab.research.google.com/github/deforum/stable-diffusion/blob/main/Deforum_Stable_Diffusion.ipynb

知名博主“海辛 Hyacinth”也給出了一個(gè)完整制作 AI 動(dòng)畫的工作流——

其中提到了多種技術(shù),如利用 inpainting 修改細(xì)節(jié),用 outpainting 向外擴(kuò)展,用 dreambooth 做動(dòng)畫主角,用 Deforum 不斷生成改變、用 coherence 進(jìn)行連續(xù)性控制、用 flowframe 補(bǔ)幀等等。更做二次元漫畫一樣,也是一項(xiàng)系統(tǒng)性工程。

prompt 逆向反推

整個(gè) AI 藝術(shù)最關(guān)鍵的是 prompt,尤其對于新人用戶,能否獲得好的 prompt 是其能否獲得優(yōu)質(zhì)出圖的關(guān)鍵所在,因此很多產(chǎn)品化的 AI 工具都會在用戶輸入 prompt 這方面進(jìn)行改進(jìn)。除了大量可以獲取關(guān)鍵詞的搜索引擎網(wǎng)站外,逆向反推成為了一項(xiàng)重要輔助手段。所謂逆向反推,即給出一張圖片,可以是真實(shí)世界的,也可以來自 AI 生成,逆向反推技術(shù)便可以輸出能夠繪制該畫面的 prompt。雖然在實(shí)際效果中,無法反推出生成效果一模一樣的 prompt,但這給予了很多新人用戶獲取帶有復(fù)雜藝術(shù)修飾的 prompt 的途徑。如下名為 guess 的逆向反推工具為一張圖片反推出關(guān)鍵詞,其開源地址——

GitHub - huo-ju/dfserver: A distributed backend AI pipeline servergithub.com/huo-ju/dfserver

還有一款名為 CLIP Interrogator 的工具,使用連接如下——

CLIP Interrogator - a Hugging Face Space by pharmahuggingface.co/spaces/pharma/CLIP-Interrogator

 

類似的還有 methexis-inc 發(fā)布的 img2prompt——

Run with an API on Replicatereplicate.com/methexis-inc/img2prompt

除了直接以圖片進(jìn)行反推外,還有一種工具如 Prompt Extend,可以一鍵加長 Prompt,可以將一個(gè)小白用戶輸入的“太陽”一鍵加長到帶有豐富藝術(shù)修飾的“大神級”描述,工具地址——

Prompt Extend - a Hugging Face Space by dasparthohuggingface.co/spaces/daspartho/prompt-extend

搜索引擎

說到 prompt,不得不說被譽(yù)為寶庫的各大搜索引擎網(wǎng)站——

OpenArtopenart.ai/?continueFlag=df21d925f55fe34ea8eda12c78f1877d

KREA — explore great prompts.www.krea.ai/

Krea開源地址github.com/krea-ai/open-prompts

Just a moment...lexica.art/

 

在搜索引擎中搜索自己想要的畫面,便會呈現(xiàn)符合主題的配圖及其對應(yīng)的 prompt。還有不直接給 prompt 搜索,而是引導(dǎo)用戶一步步構(gòu)建 prompt 的提示性工具——

Stable Diffusion prompt Generator - promptoMANIApromptomania.com/stable-diffusion-prompt-builder/

Public Promptspublicprompts.art/

如上圖,可根據(jù)網(wǎng)站提示,一步步構(gòu)建出一幅“美麗的面孔”。在這些工具的加持下,即便從未接觸過 AI 藝術(shù)的用戶,在短短幾天內(nèi)也能逐漸摸清構(gòu)建 prompt 的精髓。

(七)除了作圖,更多 AI 藝術(shù)領(lǐng)域

AI 藝術(shù)從 AI 作圖開始,也稱之為 text-to-image,但時(shí)至今日,藝術(shù)并不局限于圖片,AI 藝術(shù)也不局限于 AI 作圖,更多的 text-to-X 開始預(yù)示著未來 AI 藝術(shù)的新形態(tài)。最為知名的有:

text-to-3D

即文本生成 3D 模型,同樣在 SD 生態(tài)也有類似項(xiàng)目,地址如下——

Stable Dreamfusiongithub.com/ashawkey/stable-dreamfusion/blob/main/gradio_app.py

圖片來源:量子位《Text-to-3D!建筑學(xué)小哥自稱編程菜鳥,攢了個(gè)AI作畫三維版,還是彩色的》

在給 AI 輸入“一幅美麗的花樹畫,作者 Chiho Aoshima,長鏡頭,超現(xiàn)實(shí)主義”,就能瞬間得到一個(gè)長這樣的花樹視頻,時(shí)長 13 秒。這個(gè) text-to-3D 項(xiàng)目叫 dreamfields3D,現(xiàn)已開源——

dreamfields3Dgithub.com/shengyu-meng/dreamfields-3D

除此之外,還有個(gè)項(xiàng)目叫 DreamFusion,地址——

DreamFusion: Text-to-3D using 2D Diffusiondreamfusionpaper.github.io

演示視頻地址video.weibo.com/show?fid=1034:4819230823219243

DreamFusion 有著較好的 3D 效果,也被 SD 生態(tài)嫁接到了 SD 實(shí)現(xiàn)中,開源地址——

DreamFusiongithub.com/ashawkey/stable-dreamfusion

還有 如 3DiM, 可以從單張 2D 圖片直接生成 3D 模型;英偉達(dá)開源 3D 模型生成工具,GET3D——

GET3D開源地址github.com/nv-tlabs/GET3D

text-to-Video

Phenaki 演示video.weibo.com/show?fid=1034:4821392269705263

文本生成視頻對技術(shù)要求極大,目前只有 google 和 meta 在爭相發(fā)布體驗(yàn)性質(zhì)的產(chǎn)品,知名的如 Phenaki、Imagen Video 和 Make-A-Video。其中 Phenaki 可以在 22 秒內(nèi)生成一個(gè) 128*128 8fps 的長達(dá) 30 秒的短視頻。而 Imagen Video 可以生成清晰度更高的視頻,可達(dá) 1280*768 24fps。

text-to-Music

文本生成音樂,如項(xiàng)目 Dance Diffusion,試玩地址——

Dance Diffusioncolab.research.google.com/github/Harmonai-org/sample-generator/blob/main/Dance_Diffusion.ipynb#scrollTo=HHcTRGvUmoME

可以通過文本描述生成“在風(fēng)聲中吹口哨”、“警報(bào)器和嗡嗡作響的引擎接近后走遠(yuǎn)”等特殊聲音效果。

寫在最后

技術(shù),永無止境,則 AI 藝術(shù),永無止境。最后,以 StabilityAI 首席信息官 Daniel Jeffries 的一段話做結(jié)束——

“我們要建立一個(gè)充滿活力、活躍、智能內(nèi)容規(guī)則的世界,一個(gè)充滿活力、你可以與之互動(dòng)的數(shù)字世界,共同創(chuàng)造的內(nèi)容,那是你的。加入到這股大潮吧,你將不再只是在未來的網(wǎng)絡(luò)上沖浪、被動(dòng)地消費(fèi)內(nèi)容。你將創(chuàng)造它!“

本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。