AI模型標誌著人工智慧發展的新里程碑。 自1956年達利茅斯會議以來,人工智慧的發展可以分為四個階段。 隨著網際網絡和雲技術的興起,人工智慧逐漸從象徵主義過渡到聯結主義,呈現出波一樣的發展態勢。 目前,這股以AI大模型為首的人工智慧浪潮,正預示著通用人工智慧時代的到來。 人工智慧
ChatGPT的出現宣告了AI大模型時代的開始,從此,多模態預訓練大模型成為行業標準。
在將大型AI模型擴充套件到多模態領域的過程中,生成式AI領域正在發生深刻的變化。 大模型的創新重點已經從單一模態擴充套件到多模態,使得多模態預訓練大模型逐漸成為文字、影象、**生成等多個領域不可或缺的工具。
最近,OpenAI 推出了其第乙個文字生成**模型 SORA,它所展示的結果令人嘆為觀止。 SORA模型不僅可以根據文字描述生成長達60秒的**內容,還可以準確把握色彩、風格等關鍵要素,從而產生表情豐富、情感飽滿的生動**。 SORA的三大核心優勢使其能夠在AIGC領域取得突破,這可以說是該領域的乙個重要里程碑。
人工智慧模型正逐漸從單模態發展到多模態
來源**:畢馬威的人工智慧模型可根據處理的資料型別分為兩大類:
1)單峰模型:專注於處理單一型別的資料,例如文字。它們針對特定型別的資訊進行了優化,並在該領域表現出色。
2)多模態模型:與單模態模型不同,多模態模型能夠同時處理兩種或多種型別的資料。這種處理方法類似於人腦,能夠同時接收和處理文字、聲音、影象等不同形式的資訊。 多模態模型通過整合來自不同模態的資料,提供更全面、多維度的理解和表達。
多模態的概念意味著從多個角度或感官來表達或感知事物。
在此上下文中,“多模態大型模型”特指可以處理文字、音訊、影象和其他不同形式內容的大型模型。 這些模型通過融合多種型別的資訊,為人工智慧的發展開闢了新的途徑,以實現更高水平的理解和生成能力。
多模態大模型框架:
隨著配套技術的不斷完善,AI模型在輸入文字後生成多模態內容的能力不斷增強,行業內新產品層出不窮,商用速度也在加快。
2020 年 6 月 GPT30 的發布表明 AI 已經能夠在高水平上生成文字和 **。 隨後,在2022年7月,文盛圖形領域的標誌性產品Stable Fusion上線。 到2023年,AI在生成3D模型和**領域也取得了重大進展,相關產品陸續落地落地。 在發電領域,Runwaygen和PikalabsPika等使用擴散模型的技術繼續推動結果的優化和改進。
隨著AI技術的不斷發展,B端和C端使用者都可以以高質量、低成本的方式製作影象、**和3D**。 這將為影視、營銷、遊戲等媒體行業帶來巨大的商業價值,幫助這些行業降本增效。
多模態能力不僅可以提公升互動體驗和內容製作效率,還可以優化現有AI產品在場景下的效能。 通過對語音、文字等多種模態的深入了解,多模態技術可以顯著提公升互動體驗,讓AI產品在各種場景下發揮更大的作用。
在技術上,多模態大型模型主要分為單塔結構和雙塔結構兩種。 單塔結構利用深度神經網路完成影象與文字的互動融合,屬於前資訊融合方案。 雙塔結構利用不同的神經網路對不同模式的資訊進行處理,並在最後一層進行資訊互動和融合,屬於後資訊融合方案。 這種結構具有模型獨立性強、訓練效率高等優點。
在商業模式上,大模型的實現可以分為三種主要模式:大模型、大模型+算力、大模型+應用。 企業使用者可以直接購買大型產品或租用大型服務。 同時,廠商還可以結合模型和算力進行銷售,或者將融合了大模型能力的上層應用出售給企業使用者,並收取軟體許可費等費用。
目前,大模型+算力是主流的收費模式,但隨著模型應用和生態的進一步完善,大模型+應用模式的佔比有望逐步提公升。
目前,多模態已成為眾多廠商在AI大模型演進中的重要發展方向,其中“說話和畫畫”的能力成為各大模型的重點。
海外OpenAI和谷歌憑藉在多模態領域的廣泛布局和先進技術,推出了效能卓越的通用多模態大模型,引領行業發展趨勢。 同時,穩定性AI、Midjourney 和 Runway 等垂直領域的獨角獸在技術突破和產品創新方面也發揮著舉足輕重的作用。
國內高校、科技、產業的緊密融合,進一步穩定了大規模模式產業格局,生成式人工智慧為產業公升級提供了強勁動力。 ChatGPT的崛起,刺激了阿里巴巴、華為、騰訊、JD.com、位元組、360、商湯科技、科大訊飛等各大廠商的積極參與,讓國內大型模型領域進入了“百模混戰”的激烈競爭時代。
截至2023年10月,國內有254家廠商和高校擁有超10億引數的大模型。 在這個生態系統中,高校和科研人員專注於基礎研究和人才培養,為行業提供了源源不斷的創新動力。 大型廠商依託強大的算力支撐、基礎設施建設、MaaS服務,為大模型的訓練和部署提供堅實保障。 另一方面,初創企業在開發大型模型應用方面取得了長足的進步,以促進該技術的商業化。
此外,在多式聯運方向上有布局或具有布局能力的廠商包括崑崙萬維、萬興科技、美圖公司、新國度等。 隨著多模態技術的不斷進步,人工智慧在電商、遊戲、教育、營銷等領域的應用也將迎來新的發展機遇,焦點科技、華文**、盛天網路、藍色游標、鳳凰傳媒、世紀天虹、棕風科技等相關布局廠商也將從這一趨勢中受益。 同時,虹軟科技、丹虹科技等公司也將受益於AI應用的開發。
隨著大模型資料規模的不斷增長,單台伺服器難以滿足日益增長的算力需求。 因此,通過高效能網路連線大量伺服器,構建大規模算力集群,成為必然趨勢。 在這一領域,浪潮資訊、中科曙光、實業財富聯盟、拓維資訊等廠商積極布局,為行業的快速發展提供有力支撐。
目前,多模態大模型的開發正在帶來技術上的平等,使C端內容創作能夠更好地實現成本和質量的平衡。 這種技術的進步為普通使用者提供了更多的創意工具和可能性,使他們更容易建立高質量的內容。
隨著影象、音訊、3D資產等多模態技術的進一步發展,我們有望看到AIGC時代的真正到來。 在這個時代,人工智慧將成為內容創作的重要驅動力,幫助使用者更快、更高效地生成豐富多樣的內容。
這一變化將為UGC平台帶來巨大的機遇。 過去,小紅書、知乎、抖音、快手等UGC平台已經證明了使用者創作內容的潛力。 使用者建立內容的門檻每增加一倍,使用者建立的內容量就會增加十倍,對應平台的使用者規模也會明顯增加。 這意味著,隨著多模態大模型和多模態技術的普及,UGC平台將迎來更多的創作者和更多的內容,從而進一步推動平台的發展和壯大。
關注【樂清智庫】,洞察產業格局!