當前,大模型的發展正處於充滿無限可能的大變革前夕,大資料作為核心元素也被賦予了新的內涵。 大模型技術的出現對大資料意味著什麼,大資料將如何影響大模型的發展,兩者如何更好地雙向奔赴,帶來新的質量生產力,2024年將出現哪些技術引爆點和殺手鐧?
在大模型與大資料之間徘徊不去的各種問題,在“第六屆金猿季暨魔方論壇-大資料產業發展論壇”上,資料猿資深首席撰稿人歐曉剛作為圓桌論壇主持人,香港科技園公司董事太平紳士, 香港特別行政區**數字經濟發展委員會委員車品覺,石獅科技副總經理兼CIO侯建業,經緯創緣創始人兼CEO王龍,弘毅聯合創始人兼CTO羅永秀,偉銀中國副總裁熊偉進行了深入探討,並就大模型與大資料的融合發展提出了建議。
雖然大模型的效能足以讓人大吃一驚,但不得不承認,即使它像ChatGPT一樣強大,也經常存在嚴重的廢話。 大模型的智慧與愚昧深受大資料語料庫的影響,所以我們不禁要問,大資料如何影響大模型的發揮?
五位小組成員一致認為,資料的質量決定了大型模型的質量。 車品覺認為,對於大模型來說,大資料的“大”並不是萬能的。 碎片化的資料不如真實的邏輯資料有價值。 而且,在臨界點上,無論餵食多少零散的語料,都不會對大模型的推理效果產生更大的影響,高質量的資料可以起到“一字勝千言”的作用。
香港科技園公司董事,太平紳士,香港特別行政區**數碼經濟發展委員會委員 查品角。
王龍生動地指出,大模型的工作機制就像把乙個高畫質**壓縮成乙個32kb的縮圖,找到資料排列的規律,然後依法生成乙個新的高畫質影象。 在構建大模型的過程中,大資料集的質量直接決定了模型的效能和準確性。 構建實時精準的閉環環路,實現資料採集、處理、訓練的無縫銜接,是推動大模型發展的關鍵環節。
如果只是在“實驗室”中,資料的質量可能只會影響模型的效能,無非是80或60分之間的差異。 但是,在商業應用中,只有兩個選項,可用和不可用。
羅永秀表示:“大模型在推動文件智慧型化管理方面的作用不言而喻,這是不言而喻的。 大模型一出來,弘毅就嘗試將其應用到我們的ECM智慧型內容管理產品中,但很難形成乙個系統,因為它是乙個持續、動態的優化過程,用於文件資料的採集、整理、分析和應用。
一、標準品。 在知識管理領域,大模型如魚得水,正在快速發展。 這是因為知識管理包含著最嚴謹、最合乎邏輯的知識,如產品操作手冊、工藝生產標準等,直接決定了企業經營生產的內容,對準確性和一定的組織規範提出了極高的要求。 基於行業知識庫構建的資料集,無論是向量化處理還是高精度微調,一旦企業接入大模型,肯定會給生產效率帶來顯著提公升。 ”
羅永秀,弘毅聯合創始人兼首席技術官。
結合實際應用,熊偉認為:“大模型是一種語言模型,而人類語言系統相對完整和系統,可以為大模型提供足夠的語料庫,因此大模型在理解和生成**語言方面具有天然的優勢。 我們從事的客戶服務是一站式的、跨區域的、多語言的,大模型可以幫助我們無障礙地與全球許多國家溝通,並充當智慧型助手。 ”
當然,我們也必須明確指出,強調大資料“質量”的重要性並不是否定“數量”的作用,大資料的質量和數量不是對立的,兩者相輔相成,資料量大、資料質量越高,共同決定模型的質量和效能。
近十年來,網際網絡的快速發展為大模型的興起奠定了資料基礎,沉澱了一批極其寶貴的資料資產。 過去,為了進行有效的資料探勘,不僅要付出巨大的專家成本,還需要經過資料採集、大資料預處理、資料標註等一系列繁瑣的程式,導致大量資料無法發揮其價值,成為“沉睡的金礦”。 大模型的出現給大資料帶來了新的氛圍,同時也對資料庫、資料平台等資料基礎設施提出了新的要求和考驗。
侯建業指出,“在大模型誕生之前,需要處理100TB或PB資料的場景應用很少,只有類似氣象、生物醫學的科研專案才需要如此龐大的資料。 大模型讓海量資料的分析應用飛入老百姓家中,幾乎可以應用於所有行業。 很多從事大型模型研發的公司,往往有數千億個引數。 在資訊化發展的最後階段,業界經常談論頻寬、接入、儲存等詞,但在新的發展階段,模型、算力、顯示卡成為熱門話題,這是新時代的韻律。 ”
侯建業,石材科技副總經理兼首席資訊官。
大型模型就像乙個通過新工藝改進的鑽機,能夠探測埋在地下深處的深層石油。 大資料作為數字時代的生產要素,與封建時代和工業時代的生產要素有著不同的特徵,大資料可以無限地重複使用和再生。 大模型技術的廣泛應用將產生海量的新資料。
如今,很多短**、文字都是由大型模型生成的。 大模型的廣泛應用帶來了企業資料量的巨大增長,可以說大模型是大資料的大腦。 由於大模型的出現,以前分散在企業不同部門之間的文件和各種資料資產將被重新發現,其價值將被再現。 羅永秀說。
大模型不僅可以分析大資料,還可以生成大資料,這些生成的大資料在前一秒世界上是沒有的,我們如何看待這些大模型創造的“史無前例”的資料?
王龍認為,大模型是乙個概率系統,勉強能寫新聞稿,但要寫乙個公司的財務報告,大模型可能有一萬條內容是對的,只有一條是錯的,壞的是使用者不知道哪一條是錯的, 當它出錯時,在這種情況下,公司不敢把這一切事情都交給大模型。保證大模型輸出的資訊真實準確是目前乙個非常重要的問題。 隨著大型模型在各個領域的廣泛應用,資訊輸出直接關係到決策的準確性和社會的穩定執行。
王龍,Matrix Origins創始人兼CEO。
熊偉指出,訓練大模型意味著投入海量資料,如何在保障私隱的基礎上釋放資料的價值,將是各行各業企業面臨的重要挑戰。 隨著AIGC的應用越來越廣泛和深入,通過模型訓練優化、安全加密技術公升級、合規監管體系的逐步完善,資料的安全性和私隱性將得到極大的提公升。
熊偉,威銀中國區副總裁。
有分析人士指出,每一次科技革命都會經歷兩個時期:前二三十年是引進期,在此期間,大量的基礎設施和重點產業逐步形成、逐步完善,同時又在遇到舊正規化的阻力的同時,被新正規化沖刷和顛覆; 接下來的二三十年是擴張期。 前期積累的結構性矛盾在制度框架的調整下得到緩解,科技革命帶來的變革力量逐步擴散到整個經濟社會,經濟增長重新進入可持續增長模式。
帶著人們對大模型的無限期待進入2024年,嘉賓們對新一年大模型的發展表達了積極的態度。 羅永秀認為,在經濟發展放緩的背景下,企業會更加注重降本增效,企業可能會裁員以減少各項支出,但對資料資產管理和知識管理的投入會增加。 王龍則比較樂觀,他認為:“大模型上下游有很多機會,上游機會來自大模型訓練、推理等基礎設施環節; 下游機會來自應用層,例如多模態內容生成。 相信未來20年,Microsoft和今日頭條可能在24年後誕生。 ”
AI Copilot、AI Agent、AI PC等大型模型技術分支都在各自的方向上苦苦掙扎,臨界點和殺手級應用可能會在一夜之間以意想不到的方式給世界帶來驚喜。 大模型和大資料就像量子糾纏,加速產業融合,推動資料科學進入新時代。 這種融合為更深入的見解和智慧型決策開啟了大門,開創了資料科學的新時代。