OpenAI工程師必須有經典的“苦澀教訓”，原來在20多年前就有了原型

由機器之心報告。

編輯：杜薇

從大量資料中學習的能力終於超出了人們的想象。

OpenAI推出生成模型SORA已經一周了，熱度不減，作者團隊不斷發布吸睛**。例如，一群喜歡冒險的小狗探索天空廢墟的電影預告片，Sora 一次性生成並自己進行剪輯。

當然，生動逼真的AI**讓人好奇，為什麼OpenAI是第乙個構建SORA並能夠執行所有AGI技術棧的公司。這個問題在社交上引發了熱烈的討論。

其中，在知乎的一篇文章中，加州大學伯克利分校電腦科學博士，作者@siyZ 分析了 OpenAI 的一些成功方塊，他認為 OpenAI 的方塊是通往 AGI 的途徑，而這個方塊建立在幾個重要的公理之上，包括苦澀的教訓、擴充套件定律和新興屬性。

知乎原文：苦澀的教訓來自機器學習先驅里奇·薩頓（Rich Sutton）在2019年的一篇經典文章《苦澀的教訓》，通過人工智慧近幾十年來走過的彎路，他丟擲的核心觀點是：如果人工智慧想要長期改進，使用強大的算力才是王道。這裡的計算能力意味著大量的訓練資料和大型模型。

原文鏈結：因此，作者@siyZ認為，從某種意義上說，以強大的算力支撐的通用AI演算法是AGI路徑的王者，也是AI技術真正進步的方向。大模型、大算力、大資料，《苦澀的教訓》構成了AGI的必要條件。結合縮放律的充分條件，該演算法可以使大模型、大算力和大資料得到更好的結果。

無獨有偶，本週走紅的OpenAI研究員Jason Wei，在日常工作日程中也提到了Rich Sutton的《苦澀的一課》。可以看出，很多業內人士都把《苦澀的一課》當成了指導方針。

與此同時，在另乙個關於大型語言模型（LLM）是否可以作為其自身結果的驗證器的討論中，有人認為LLMs根本不夠準確，無法驗證自己的結果，並且會導致效能更差（以API為代價）。

另一位Twitter使用者在20多年前的Rich Sutton的部落格文章中對這一觀點做出了重要發現。

原文鏈結：部落格是這麼說的：

考慮到任何人工智慧系統及其所擁有的知識，它可能是乙個專家系統，也可能是像CYC這樣的大型資料庫。或者它可能是乙個熟悉建築物布局的機械人，或者知道如何在各種情況下做出反應。在所有這些情況下，我們可以問人工智慧系統是否可以驗證自己的知識，或者它是否需要人工干預來檢測錯誤和不可預見的互動，並糾正它們。在後一種情況下，我們將永遠無法建立乙個真正龐大的知識體系。它們總是脆弱和不可靠的，規模僅限於人們可以監控和理解的範圍。

出乎意料的是，里奇·薩頓（Rich Sutton）回覆說，這篇寫了一半的博文是《苦澀的一課》的原型。

事實上，在OpenAI發布SORA後不久，很多人就意識到《苦澀的教訓》發揮了重要作用。

其他人則將《苦澀的一課》與《變形金剛》一起觀看**注意力就是你所需要的。

在文章的最後，我們回顧了里奇·薩頓（Rich Sutton）的《苦澀的教訓》的全文。

人工智慧研究的70年歷史告訴我們，利用計算能力的一般方法最終是最有效的。摩爾定律（Moore's Law）可以解釋這一點，摩爾定律對每單位計算成本持續呈指數下降的概括。許多人工智慧研究都是假設智慧型體可用的計算是恆定的（在這種情況下，利用人類知識是提高效能的唯一方法），但是，我們將不可避免地需要在比典型研究專案稍長的時間尺度上進行大量計算。

為了在短期內進行改進，研究人員需要利用人類知識的專業領域。但從長遠來看，如果你想提高，使用計算能力是王道。這兩者不應該是對立的，但它們經常是對立的。花時間研究乙個，而忽略了另乙個。利用人類知識的方法很容易複雜，因此不太適合利用計算的方法。有很多例子表明，人工智慧研究人員認識到這些教訓為時已晚，因此值得回顧一些突出的例子。

在計算機西洋棋中，1997年擊敗世界冠軍卡斯帕羅夫的方法是基於大量的深度搜尋。當時，大多數人工智慧計算機西洋棋研究人員都沮喪地發現了這一點，他們的方法是利用對人類物體西洋棋特殊結構的理解。當這種使用硬體和軟體的更簡單的、基於搜尋的方法被證明更有效時，這些基於人類知識的西洋棋研究人員拒絕承認失敗。他們認為，雖然這種蠻力搜尋方法這次獲勝，但它不是一種通用的策略，無論如何它都不是人類下棋的方式。這些研究人員希望基於人類輸入的方法能夠獲勝，但結果令人失望。

僅僅在20年後，計算機圍棋的研究進展也有類似的模式。最初，研究人員試圖利用人類知識或遊戲的特殊性來避免搜尋，但所有的努力都被證明是無用的，因為搜尋被有效地大規模應用。使用自我遊戲來學習價值函式也很重要（就像在許多其他遊戲甚至西洋棋中一樣，儘管它在 1997 年第一次戰勝世界冠軍時幾乎沒有起到什麼作用）。通過自我遊戲和一般學習來學習有點像搜尋，因為它需要大量的計算。搜尋和學習是人工智慧研究中利用大量計算的兩項最重要的技術。在計算機圍棋中，就像在計算機西洋棋中一樣，研究人員最初希望通過人類的理解來實現他們的目標（這樣就沒有太多的搜尋），後來才通過搜尋和學習取得了巨大的成功。

在語音識別領域，早在上世紀70年代，DARPA就贊助了一場比賽。參賽者利用許多特殊的方式來利用人類知識：文字、因素和人類聲音等。另一方面，也有人利用基於隱馬爾可夫模型的新方法，這些方法本質上更具統計性，計算量更大。同樣，統計方法勝過基於人類知識的方法。這導致了自然語言處理領域的重大變化，在過去的幾十年裡，統計和計算逐漸佔據主導地位。最近語音識別中深度學習的興起是朝著這個方向邁出的最新一步。

深度學習方法對人類知識的依賴更少，使用更多的計算，並伴隨著從大型訓練集中學習，從而產生更好的語音識別系統。就像在遊戲中一樣，研究人員總是試圖讓系統按照他們的想法工作——他們試圖將知識放入系統中——但事實證明，最終結果往往適得其反，浪費了研究人員的時間。但是有了摩爾定律，研究人員可以進行大量的計算，並找到一種有效使用它們的方法。

計算機視覺領域也存在類似的模式。早期的方法認為，視覺是搜尋邊緣、廣義圓柱體或依賴於 SIFT 特徵。但今天，所有這些方法都被放棄了。現代深度學習神經網路可以僅使用卷積和一些不變性的概念來獲得更好的結果。

這是乙個非常大的教訓。因為我們仍然在犯同樣的錯誤，所以我們仍然沒有對人工智慧領域有透徹的了解。為了看到這一點並有效地避免重蹈覆轍，我們必須了解為什麼這些錯誤會讓我們誤入歧途。我們必須吸取慘痛的教訓，從長遠來看，堅持我們的心態是行不通的。慘痛的教訓基於以下歷史觀察：

人工智慧研究人員經常試圖在自己的代理中構建知識，這在短期內通常是有幫助和令人滿意的，但從長遠來看，它可能會阻礙甚至抑制進一步的發展，而突破最終可能導致相反的方法——基於基於大規模計算的搜尋和學習。最終的成功往往伴隨著一絲苦澀，無法完全消化，因為這種成功不是通過討人喜歡的、以人為本的方法實現的。

我們應該從艱難的經歷中學到的一件事是，通用方法非常強大，並且隨著計算能力的提高，即使可用的計算變得非常大，它們也會繼續擴充套件。搜尋和學習似乎只是以這種方式隨意擴充套件的兩種方式。

Richard S.，強化學習教父薩頓目前是加拿大阿爾伯塔大學的教授。

我們從慘痛的教訓中學到的第二個共同點是，意識的實際內容是極其複雜的; 我們不應該嘗試用簡單的方式思考意識的內容，例如思考空間、物體、多個代理或對稱性。所有這些都是任意的、固有的複雜外部世界的一部分。

它們不應該是固有的，其原因是複雜性是無窮無盡的; 相反，我們應該只構建能夠發現和捕獲這種任意複雜性的元方法。這些方法的關鍵是它們能夠找到很好的近似值，但對它們的搜尋應該通過我們的方法完成，而不是由我們自己完成。

我們希望人工智慧代理能夠像我們一樣發現新事物，而不是重新發現我們發現的東西。建立在我們發現的基礎上，只會讓我們更難看到發現過程的完成程度。

OpenAI工程師必須有經典的“苦澀教訓”，原來在20多年前就有了原型

相關問題答案

OpenAI 工程師的年收入高達 2500 萬美元，是業內最高的

網路工程師必須具備VLAN原理

網路工程師必須具有 OSPF 協議

職場白領必備！發現 CAD 工程師認證證書考試的獨特技能！

網路工程師必須具有 TCP 協議