在昨天的《Midjourney V6 Deep Dive: The Road to Advanced(1)》中,我介紹了 Midjourney 新發布的 V6 車型的優缺點,這款車型與 V5 相關2 主要變化。
在今天的第二講中,我將根據我的個人經驗和風格總結**中庫的指導,繼續進行解釋Midjourney V6 的核心:對語言的理解,即提示詞
我們將首先嘗試簡單和複雜的文字提示,然後深入研究影象提示,看看新模型如何識別和重新構想(和混合! 以及如何使用影象權重引數控制結果。
官方公告指出,V6 中的提示與我們之前學習如何與 Midjourney 模型通訊的方式有很大不同。 甚至到了你需要“重新學習”如何寫提示詞的地步。
使用相同的提示詞,但詞序不同,在同乙個“--seed”引數下的結果通常非常小:
但是如果沒有限定“--seed”,情況就不同了:
但顯然,在 Midjourney 中,詞序和最佳提示的影響與強風格不同(例如 Aaron Horkey)。這是顯而易見的
當然,當藝術家的風格不明顯時,使用“某人畫的圖”比“某人畫的圖”更有效:
在探索 Midjourney 理解線索的能力時,乙個重要的問題是:在 Midjourney 停止對提示的新新增做出反應或“丟失”它之前的部分之前,我們可以製作乙個多複雜的提示?
從乙個簡單的提示開始,逐漸新增新的標籤,同時保持“--seed”引數的固定以保持一致性:
Midjourney v6 在忘記一些提示詞之前正確地進行了 7 次構建,而 v52 次少於一次成功。
顯然,根據情況和提示詞,結果可能會有所不同。 但是,在大多數實驗中,v5模型通常會在“崩潰”之前新增 6 到 7 次細節,而新的 v6 模型通常能夠在遇到類似問題之前成功更多次。
讓我們來看看 V6 模型(預設和 RAW 模式)如何解釋更抽象甚至無意義的提示:
綜上所述,雖然Midjourney團隊的官方宣告說要重新學習寫提示,但是之前有效的提示策略在新的 v6 版本中仍然非常有效。然而V6 在質量、多樣性和 AI 對提示的理解方面的進步是顯而易見的
影象提示功能,允許使用現有影象作為 Midjourney 構建的基礎。 自 v3 發布以來,隨著每個新模型的發布,此功能變得更加強大。 那麼,v6 給映象提示帶來了哪些變化呢?
在早期版本的 Midjourney 中,乙個主要問題是影象提示將逼真的影象轉換為其他樣式的能力有限。 例如,使用攝影肖像作為源影象來建立非攝影結果通常並不完全有效,並且結果仍然趨於逼真。
讓我們看看 v6 是否對此進行了改進:
v6 中影象提示的另乙個顯著特點是模型完全轉換源影象以滿足提示詞要求的勇氣和能力。 你可以發揮你的想象力,把你的角色變成獅子,或者貓頭鷹,或者斯坦溫斯頓的怪物。
那些不那麼明顯的角色呢,或者根本不是? 看起來 v6 也可以處理它。
但是,當提示包含知名人員的姓名時,仍將該人員的姓名新增到提示中往往會“削弱”提示中其他元素的影響。 似乎Midjourney 對個人的先入為主的觀念迫使 AI 更傾向於更傳統和常見的角色形象。下圖顯示了原始影象、提示中提及的人員姓名以及提示中缺少人員姓名的情況。
影象權重,即“--iw”引數。 在 v6 中,此設定的範圍為 01 至 3 (v5.)2 in is to 2),這決定了 Midjourney 在生成過程中與參考影象的緊密程度。我的感受是,無論權重如何,v6 版本都比 v5 版本更逼真、更詳細
Midjourney 的“blend”命令可以合併多個現有影象,以建立新鮮、獨特的結果。
與單個影象提示不同,混合不需要任何文字輸入。 這意味著您可以將其中兩個或更多放入 Midjourney 的混音器中,並僅根據視覺元素神奇地製作它。
總的來說,影象提示和影象混合在《Midjourney》中開闢了乙個全新的創意維度。 憑藉 v6 的靈敏度以及識別源影象關鍵特徵的能力,以便以後以不尋常的混合方式再現它們,您的創造力將更廣泛、更逼真、更詳細。
在第三講中,我將重點介紹如何控制提示和使用引數來增加中程生成的可讀性。
如果您覺得這篇文章對您有幫助,歡迎點讚、收藏和分享。 同時,請關注我以獲取有關人工智慧的更多更新和見解!
2月** 動態激勵計畫