除了Gemini的生成式AI模型外,谷歌今天早上還發布了AlphaCode 2,這是Google Deepmind Labs在大約一年前推出的生成式alphacode的改進版本。 Alphacode 2 實際上是由 Gemini 模型驅動的,或者至少是它的某個變體(Gemini Pro)在程式設計種族資料之上進行了微調。 谷歌表示,在至少乙個基準測試中,Alphacode 2 的表現遠遠優於其前身。
據谷歌稱,Alphacode 2(用Python、J**A、C++和Go等語言編碼)在程式設計競賽平台CodeForces主辦的編碼競賽中平均表現優於約85%的競爭對手。 相比之下,上一代 alphacode 在同一子集上的平均得分僅為 50%。
我們選擇了 12 場最近的比賽,有超過 8,000 名參與者,要麼來自第二組,要麼來自更困難的比賽'1+2'群。 這使我們能夠解決總共 77 個問題"AlphaCode 2 的技術*** 已編寫。 "Alphacode 2 在 10 次嘗試中解決了 43% 的問題,幾乎是原始 alphacode (25%) 的兩倍。
可以理解的是,AlphaCode 2 涉及"複雜"數學和電腦科學理論中的程式設計難題。 DeepMind研究科學家雷公尺·勒布朗(Rémi Leblond)在預先錄製的視訊中解釋說,AlphaCode 2能夠進行動態程式設計,以及其他相當複雜的技術。
Alphacode 2 不僅知道何時正確實施此策略,而且還知道如何在實施時使用它。 Leblond 說,Alphacode 2 不僅知道何時正確實施這一策略,還知道何時使用它。 考慮到需要動態程式設計的程式設計問題是原始 alpha 程式碼的一大絆腳石,這一點值得注意。
勒布朗 說:"[alphacode 2] 需要表現出一定程度的理解、一定程度的推理和解決方案的設計,然後才能實際執行以解決 [a] 編碼問題。 它可以在以前從未見過的問題上完成所有這些工作"。
AlphaCode 2 解決這個問題的方法是首先利用它"策略模型"系列為每個問題生成大量樣本。 與問題不匹配的樣本將被過濾掉,聚類演算法將使用"語義相似的樣本"分組以避免任何冗餘。 最後,alphacode 2 中的評分模型從 10 個最大的樣本開始"集群",這就是 alphacode 2 中問題的答案。
現在,所有 AI 模型都有缺陷,alphacode 2 也不例外。 根據 alphacode 2,它需要大量的試驗和錯誤,縮放的成本太高,並且它在很大程度上依賴於能夠過濾掉明顯不好的樣本。 **據推測,遷移到更強大的 Gemini 版本(例如 Gemini Ultra)可能會緩解一些問題。
DeepMind產品副總裁Eli Collins在一次簡報中暗示了這種可能性。
柯林斯說"最新結果最讓我興奮的一件事是,當程式設計師與 [Alphacode 2 powered by Gemini] 合作時,[模型] 的效能通過定義 ** 遵循的某些屬性而變得更好。 未來,我們將看到程式設計師利用高效能人工智慧模型作為協作工具,協助整個軟體開發過程,從推理問題到協助實施。 "