穩定擴散分析：探索AI繪畫背後的技術奧秘

在談論 Stable Diffusion 之前，有必要了解一下 AI 繪畫的演變。

早在 2012 年，由中國科學家 Andrew Ng 領導的團隊就訓練了當時世界上最大的深度學習網路。該網路能夠學會自主識別貓等物體，並在短短三天內繪製出一張模糊但可識別的貓圖。雖然這個是模糊的，但它展示了深度學習在影象識別方面的潛力。

2014年，加拿大蒙特婁大學的谷歌科學家伊恩·古德費羅（Ian Goodfellow）提出了一種生成對抗網路GAN的演算法，成為AI生成繪畫的主流方向。 GaN的工作原理是訓練生成器和判別器兩個深度神經網路模型，使生成器能夠生成與真實資料相似的新資料樣本，判別器可以準確區分生成器生成的假樣本和真實資料。 GaN的核心思想是生成器試圖欺騙鑑別器，鑑別器試圖區分真假，兩者相互爭鬥，相互配合，實現高質量的資料生成。

2016年，第乙個GAN到影象模型GAN-int-CLS發布，證明了GANs從文字生成影象的可行性，為各種基於GAN的條件影象生成模型的出現開啟了大門。然而，氮化鎵在訓練過程中容易出現不穩定或崩潰，因此難以大規模應用。

同年10月，NVIDIA提出了Progressivegan，通過逐漸增加神經網路的規模來生成高解像度影象，使模型訓練更容易，生成質量也提高了，為後來Stylegan的崛起鋪平了道路。

2017年，谷歌發表了著名的**“Attention is All You Need”，提出了Transformer結構，隨後在自然語言處理領域大放異彩; 雖然 Transformer 旨在解決自然語言處理問題，但它在影象生成領域也顯示出巨大的潛力。 2020年，他們提出了VIT的概念，試圖在計算機視覺中用Transformer結構取代傳統的卷積神經網路CNN結構。

2020年的情況變得更糟。加州大學伯克利分校提出了著名的去噪擴散概率模型DDPM，該模型簡化了原始模型的損失函式，將訓練目標轉換為當前步驟新增的雜訊資訊，大大降低了訓練難度，並將網路模組從全卷積網路替換為UNET，提高了模型的表現能力。

2021 年 1 月，OpenAI 發布了基於 VQVAE 模型的 Dall-E 和 Clip 模型，即對比語言-影象預訓練，分別用於文字到影象的生成和文字到影象的對比學習。這似乎第一次讓人工智慧真正“理解”了人類的描述並創造了它們，引發了人們對人工智慧繪畫的空前熱情。 2021 年 10 月，谷歌發布了 Disco Diffusion 模型，以其驚人的影象生成開啟了擴散模型的時代。

2022 年 2 月，Disco Diffusion 上線，這是乙個基於擴散模型的 AI 繪圖生成器，由一些開源社群的工程師開發。從此，AI繪畫進入了快速發展的軌道，潘多拉魔盒被開啟了。 Disco Diffusion 比傳統的 AI 模型更容易使用，隨著研究人員建立完善的幫助文件和社群，越來越多的人開始關注它。同年3月，由Disco Diffusion核心開發者共同開發的AI生成器Midjourney正式發布。 Midjourney選擇在Discord平台上上電，借助聊天式的人機互動，操作更簡單，無需複雜的引數調整，只需在聊天視窗中輸入文字即可生成影象。

更重要的是，Midjourney 生成的結果非常驚人，以至於普通人幾乎無法判斷生成的藝術品是否是由 AI 繪製的。 Midjourney上映五個月後，美國科羅拉多州博覽會的一場藝術比賽選出了藝術比賽的結果，一幅名為《太空歌劇》的畫作獲得了第一名，但它不是人類藝術家的作品，而是由乙個名為Midjourney的人工智慧創作的。

當參賽者宣布這幅作品是由人工智慧繪製時，引發了許多人類畫家的憤怒和焦慮。

2022 年 4 月 10 日，前面提到的 OpenAI 的 DALL·e 2 發布。無論是 Disco Diffusion 還是 Midjourney，它們都是 AI 生成的，但 Dall·E 2 與人類作品沒有區別。

July 29， 2022，通過穩定性由一家 AI 公司開發的 Stable Diffusion 的 AI 生成器已開始內部測試。結果發現，用它生成的 AI 繪畫的質量與 Dall·e 2 相當，並且限制較少。 Stable Diffusion 的內測分為四波，邀請了 15,000 名使用者，短短十天後，通過它產生了 1700 萬**。至關重要的是，Stable Diffusion 背後的公司 Stability AI 堅持開源理念，“AI 由人民創造，為人民服務”，這意味著任何人都可以在本地部署自己的 AI 繪畫生成器，真正實現每個人都可以“只要你能說話就創造一幅畫”。開源社群 HuggingFace 迅速適應，讓個人更容易部署; 開源工具stable-diffusion-webui整合了多種影象生成工具，甚至可以在網路端對模型進行微調和訓練個人模型，得到了好評和反響3擁有 40,000 顆恆星，擴散生成模型已經完全脫離了大規模服務，進入了個人部署。

2022 年 11 月，穩定擴散 20 發布，新版本生成的解像度是原來的 4 倍，生成速度更快。

基於潛在擴散模型，穩定擴散將最耗時的擴散過程置於低維潛變數空間中，大大降低了算力要求和個人部署的門檻。它使用潛空間編碼縮減因子 8，換句話說，影象的長度和寬度減少了原始大小的八分之一，例如，512512的影象直接在潛空間中變為 6464，從而節省了 64 倍的記憶體！除此之外，Stable Diffusion 還降低了效能要求。您不僅可以快速（在幾秒鐘內）生成詳細、512512的影象，而且只需要乙個 NVIDIA 級 8GB 2060 顯示卡。如果沒有這種空間壓縮轉換，它將需要具有 512GB 視訊記憶體的超級顯示卡。根據顯示卡硬體的演進，消費者至少需要8-10年的時間才能享受到這類應用。演算法的這次重要迭代，提前將AI繪畫帶入了每個人的生活。

在本文中，我們將了解穩定擴散的演變以及它是如何演變的。如果你也是AI繪畫的粉絲，請隨時與我交談**。未來，我會繼續更新這個系列，分享Stable Diffusion的教程和其他AI繪畫軟體的教學內容。如果您喜歡這些內容，請***感謝您的閱讀，期待下一期再次見到您！

極致科技，全稱極德資料（北京）科技***是一家專注於實時搜尋和資料分析的軟體公司。其品牌 Infini Labs 致力於創造終極易於使用的資料探索和分析體驗。

極致科技是一支採用自然分布式方式進行遠端協作的年輕團隊，員工遍布全球，希望成為中國乃至全球企業大資料實時搜尋分析產品的首選，為中國科技品牌的輸出貢獻力量。

官方網站：

穩定擴散分析：探索AI繪畫背後的技術奧秘

相關問題答案

穩定擴散的基礎知識

穩定擴散塗裝教學需要學習哪些課程？

穩定擴散繪畫課程，如何用穩定擴散開始繪畫？

STABLE DIFFUSION AI DRAWING 的 AI 工程師的月薪是多少？

如何開始使用穩定擴散繪圖？