在談論 Stable Diffusion 之前,有必要了解一下 AI 繪畫的演變。
早在 2012 年,由中國科學家 Andrew Ng 領導的團隊就訓練了當時世界上最大的深度學習網路。 該網路能夠學會自主識別貓等物體,並在短短三天內繪製出一張模糊但可識別的貓圖。 雖然這個是模糊的,但它展示了深度學習在影象識別方面的潛力。
2014年,加拿大蒙特婁大學的谷歌科學家伊恩·古德費羅(Ian Goodfellow)提出了一種生成對抗網路GAN的演算法,成為AI生成繪畫的主流方向。 GaN的工作原理是訓練生成器和判別器兩個深度神經網路模型,使生成器能夠生成與真實資料相似的新資料樣本,判別器可以準確區分生成器生成的假樣本和真實資料。 GaN的核心思想是生成器試圖欺騙鑑別器,鑑別器試圖區分真假,兩者相互爭鬥,相互配合,實現高質量的資料生成。
2016年,第乙個GAN到影象模型GAN-int-CLS發布,證明了GANs從文字生成影象的可行性,為各種基於GAN的條件影象生成模型的出現開啟了大門。 然而,氮化鎵在訓練過程中容易出現不穩定或崩潰,因此難以大規模應用。
同年10月,NVIDIA提出了Progressivegan,通過逐漸增加神經網路的規模來生成高解像度影象,使模型訓練更容易,生成質量也提高了,為後來Stylegan的崛起鋪平了道路。
2017年,谷歌發表了著名的**“Attention is All You Need”,提出了Transformer結構,隨後在自然語言處理領域大放異彩; 雖然 Transformer 旨在解決自然語言處理問題,但它在影象生成領域也顯示出巨大的潛力。 2020年,他們提出了VIT的概念,試圖在計算機視覺中用Transformer結構取代傳統的卷積神經網路CNN結構。
2020年的情況變得更糟。 加州大學伯克利分校提出了著名的去噪擴散概率模型DDPM,該模型簡化了原始模型的損失函式,將訓練目標轉換為當前步驟新增的雜訊資訊,大大降低了訓練難度,並將網路模組從全卷積網路替換為UNET,提高了模型的表現能力。
2021 年 1 月,OpenAI 發布了基於 VQVAE 模型的 Dall-E 和 Clip 模型,即對比語言-影象預訓練,分別用於文字到影象的生成和文字到影象的對比學習。 這似乎第一次讓人工智慧真正“理解”了人類的描述並創造了它們,引發了人們對人工智慧繪畫的空前熱情。 2021 年 10 月,谷歌發布了 Disco Diffusion 模型,以其驚人的影象生成開啟了擴散模型的時代。
2022 年 2 月,Disco Diffusion 上線,這是乙個基於擴散模型的 AI 繪圖生成器,由一些開源社群的工程師開發。 從此,AI繪畫進入了快速發展的軌道,潘多拉魔盒被開啟了。 Disco Diffusion 比傳統的 AI 模型更容易使用,隨著研究人員建立完善的幫助文件和社群,越來越多的人開始關注它。 同年3月,由Disco Diffusion核心開發者共同開發的AI生成器Midjourney正式發布。 Midjourney選擇在Discord平台上上電,借助聊天式的人機互動,操作更簡單,無需複雜的引數調整,只需在聊天視窗中輸入文字即可生成影象。
更重要的是,Midjourney 生成的結果非常驚人,以至於普通人幾乎無法判斷生成的藝術品是否是由 AI 繪製的。 Midjourney上映五個月後,美國科羅拉多州博覽會的一場藝術比賽選出了藝術比賽的結果,一幅名為《太空歌劇》的畫作獲得了第一名,但它不是人類藝術家的作品,而是由乙個名為Midjourney的人工智慧創作的。
當參賽者宣布這幅作品是由人工智慧繪製時,引發了許多人類畫家的憤怒和焦慮。
2022 年 4 月 10 日,前面提到的 OpenAI 的 DALL·e 2 發布。 無論是 Disco Diffusion 還是 Midjourney,它們都是 AI 生成的,但 Dall·E 2 與人類作品沒有區別。
July 29, 2022, 通過 穩定性由一家 AI 公司開發的 Stable Diffusion 的 AI 生成器已開始內部測試。 結果發現,用它生成的 AI 繪畫的質量與 Dall·e 2 相當,並且限制較少。 Stable Diffusion 的內測分為四波,邀請了 15,000 名使用者,短短十天後,通過它產生了 1700 萬**。 至關重要的是,Stable Diffusion 背後的公司 Stability AI 堅持開源理念,“AI 由人民創造,為人民服務”,這意味著任何人都可以在本地部署自己的 AI 繪畫生成器,真正實現每個人都可以“只要你能說話就創造一幅畫”。 開源社群 HuggingFace 迅速適應,讓個人更容易部署; 開源工具stable-diffusion-webui整合了多種影象生成工具,甚至可以在網路端對模型進行微調和訓練個人模型,得到了好評和反響3擁有 40,000 顆恆星,擴散生成模型已經完全脫離了大規模服務,進入了個人部署。
2022 年 11 月,穩定擴散 20 發布,新版本生成的解像度是原來的 4 倍,生成速度更快。
基於潛在擴散模型,穩定擴散將最耗時的擴散過程置於低維潛變數空間中,大大降低了算力要求和個人部署的門檻。 它使用潛空間編碼縮減因子 8,換句話說,影象的長度和寬度減少了原始大小的八分之一,例如,512512的影象直接在潛空間中變為 6464,從而節省了 64 倍的記憶體! 除此之外,Stable Diffusion 還降低了效能要求。 您不僅可以快速(在幾秒鐘內)生成詳細、512512的影象,而且只需要乙個 NVIDIA 級 8GB 2060 顯示卡。 如果沒有這種空間壓縮轉換,它將需要具有 512GB 視訊記憶體的超級顯示卡。 根據顯示卡硬體的演進,消費者至少需要8-10年的時間才能享受到這類應用。 演算法的這次重要迭代,提前將AI繪畫帶入了每個人的生活。
在本文中,我們將了解穩定擴散的演變以及它是如何演變的。 如果你也是AI繪畫的粉絲,請隨時與我交談**。 未來,我會繼續更新這個系列,分享Stable Diffusion的教程和其他AI繪畫軟體的教學內容。 如果您喜歡這些內容,請***感謝您的閱讀,期待下一期再次見到您!
極致科技,全稱極德資料(北京)科技***是一家專注於實時搜尋和資料分析的軟體公司。 其品牌 Infini Labs 致力於創造終極易於使用的資料探索和分析體驗。
極致科技是一支採用自然分布式方式進行遠端協作的年輕團隊,員工遍布全球,希望成為中國乃至全球企業大資料實時搜尋分析產品的首選,為中國科技品牌的輸出貢獻力量。
官方網站: