《經濟學人》雙語:為什麼人工智慧需要學習英語以外的語言第 1 部分?

Mondo 教育 更新 2024-02-02

原標題:

polyglot machines

why ai needs to learn new languages

efforts are under way to make ai fluent in more than just english

多語種機器。

為什麼人工智慧需要學習新語言。

努力使AI流利地使用英語和其他語言

paragraph 1]

chatgpt, a chatbot developed by openai, an american firm, can give passable answers to questions on everything from nuclear engineering tostoicphilosophy.

ChatGPT 是由美國公司 OpenAI 開發的聊天機械人,可以回答有關核工程、斯多葛哲學等的各種問題。

or at least, it can in english. the latest version, chatgpt-4, scored 85% on a common question-and-answer test.

至少,它可以用英語回答。 最新版本的 ChatGPT-4 在常見的問答測試中獲得了 85% 的分數。

in other languages it is less impressive. when taking the test in telugu, an indian language spoken by nearly 100m people, for instance, it scored just 62%.

但是當你用其他語言回答時,表現就不是那麼好了。 例如,在近 1 億人使用的印度泰盧固語問題中,得分僅為 62%。

paragraph 2]

openai has not revealed much about how chatgpt-4 was built. but a look at itspredecessor, chatgpt-3, issuggestive

OpenAI 沒有透露太多關於 ChatGPT-4 的構建。 但看看舊版本的ChatGPT-3,可以找到一些線索。

large language models (llms) are trained on text scraped from the internet, on which english is thelingua franca. around 93% of chatgpt-3’s training data was in english.

大型語言模型 (LLM) 是在從網際網絡上抓取的文字上訓練的,英語是網際網絡上的通用語言。 大約 93% 的 ChatGPT-3 訓練資料是英文的。

in common crawl, just one of the datasets on which the model was trained, english makes up 47% of the corpus, with other (mostly related) european languages accounting for 38% more.

在用於模型訓練的 Common Crawl 資料集中,英語佔整個語料庫的 47%,其他主要歐洲語言佔另外 38%。

chinese and japanese combined, by contrast, made up just 9%. telugu was not even arounding error.

相比之下,中國人和日本人加起來只佔9%。 泰盧固語甚至不包括在統計資料中。

paragraph 3]

an evaluation by nathaniel robinson, a researcher at johns hopkins university, and his colleagues finds that is not a problem limited to chatgpt.

約翰·霍普金斯大學研究員納撒尼爾·羅蘋遜(Nathaniel Robinson)及其同事的一項評估發現,這不是乙個只有ChatGPT的問題。

all llmsfare betterwith “high-resource” languages, for which training data are plentiful, than for “low-resource” ones for which they are scarce.

所有大型語言模型在“高資源”語言上表現更好,因為它們有充足的訓練資料,而在“低資源”語言上表現更差,因為訓練資料稀缺。

that is a problem for those hoping to export ai to poor countries, in the hope it might improve everything from schools to health care.

對於那些希望將人工智慧技術出口到貧窮國家以改善學校、醫療保健和其他方面的條件的人來說,這已經成為乙個問題。

researchers around the world are therefore working to make ai more multilingual.

因此,世界各地的研究人員都在努力使人工智慧具有多語言性。

paragraph 4]

india’s government is particularly keen. many of its public services are already digitised, and it is keen to fortify them with ai.

印度**對此特別熱衷。 印度的許多公共服務已經數位化,現在正在尋求人工智慧技術來增強這些服務。

in september, for instance, it launched a chatbot to help farmers get information about state benefits.

例如,去年9月,印度推出了乙個聊天機械人,幫助農民獲取有關國家福利的資訊。

paragraph 5]

the bot works by welding two sorts of language model together, says shankar maruwada of the ekstep foundation, a non-profit that helped build it.

該機械人通過結合兩種語言模型來工作,非營利組織 Ekstep** 的 Shankar Maluwada 說,它提供了支援。

users can submit queries in their native tongues. (eight are supported so far; five more are coming soon.)

使用者可以用他們的母語提交問題。 (目前支援 8 種語言,即將推出 5 種語言。 )

these are passed to a piece of machine-translation software developed at iit madras, an indian academic institution, which translates them into english.

這些問題被傳送到印度馬德拉斯理工學院開發的機器翻譯軟體,該軟體將問題翻譯成英語。

the english version of the question is then fed to the llm, and its response translated back into the user’s mother tongue.

然後,將問題的英文版本輸入到大型語言模型中,並將問題的答案翻譯回使用者的母語。

paragraph 6]

the system seems to work. but translating queries into an llm’s preferred language is a ratherclumsyworkaround

這個系統看起來工作正常。 但是,將問題翻譯成大型語言模型首選的語言實際上是一種不太方便的解決方法。

after all, language is a vehicle for worldviews and culture as well as just meaning, notes the boss of one indian ai firm.

印度一家人工智慧公司的老闆指出,語言畢竟是世界觀和文化的載體,也是意義的載體。

a **by rebecca johnson, a researcher at the university of sydney, published in 2022, found that chatgpt-3 g**e replies on topics such as gun control and refugee policy that aligned most with the values displayed by americans in the world values survey, a global questionnaire of public opinion.

雪梨大學研究員麗貝卡·詹森(Rebecca Johnson)在2022年發表了一篇文章,她發現ChatGPT-3對槍枝管制和難民政策等話題的回應與美國人在民意調查《全球價值觀普查報告》中展示的價值觀非常一致。

恭喜您閱讀,這個英語詞彙量約為 481 942)。

原文發表於2024年1月27日TE的科學與技術部分。

精讀筆記** 在:自由英語之路。

本文由Irene翻譯和整理

由Irene編輯和校對

它僅用於個人英語學習交流。

[補充資訊]。(來自網際網絡)。

斯多葛派哲學是希臘哲學的乙個流派。 直到西元前三世紀,該教派在羅馬和希臘盛行。 斯多葛學派在哲學個人道德領域占有重要地位,擁有一套邏輯體系和一套關於物質世界的觀點。 斯多葛學派的理論認為,人類作為社會性動物,要想幸福,就必須接受生活的起起落落,不能被慾望或恐懼所影響。 斯多葛學派主張人類應該用自己的智慧去理解世界,與他人合作,以公平公正的方式對待他人。

[關鍵句子]。(3 個)。

large language models (llms) are trained on text scraped from the internet, on which english is the lingua franca.

大型語言模型 (LLM) 是在從網際網絡上抓取的文字上訓練的,英語是網際網絡上的通用語言。

all llms fare better with “high-resource” languages, for which training data are plentiful, than for “low-resource” ones for which they are scarce.

所有大型語言模型在“高資源”語言上表現更好,因為它們有充足的訓練資料,而在“低資源”語言上表現更差,因為訓練資料稀缺。

after all, language is a vehicle for worldviews and culture as well as just meaning, notes the boss of one indian ai firm.

印度一家人工智慧公司的老闆指出,語言畢竟是世界觀和文化的載體,也是意義的載體。

相關問題答案

    《經濟學人》雙語:為什麼英國人喜歡在聖誕節購買食譜?Part 2

    原標題 first,take one live goose how to kill a goose quickly britons love to buy cookery books for christmas.but they barely use them 首先,拿乙隻活鵝.如何快速殺死乙隻鵝?...

    為什麼我們仍然需要方言?

    唐一涵撰寫的 潮報 z ig 再見 寧波市象山縣石浦鎮沙塘灣村村歲的村民劉熙收拾好漁具,在沙塘灣閩南與老朋友告別。而當他開啟門時,為了和家人交流,他換成了象山石浦方言 一種濃郁的當地方言 在沙塘灣村,像劉熙一樣,他這一代能說沙塘灣福建的老人,只有十幾個。這種方言是三百年前福建同安族的祖先帶來的。如今...

    為什麼年輕人需要相親?

    相親仍然是一種常見的結婚方式,尤其是在傳統家庭價值觀較重的地方。家人 親戚朋友 婚介機構等都會在牽線搭橋方面發揮作用。相親通常在安排好的場合進行,如相親角 相親會等。在這些場合,男人和女人進行簡單的交流,以了解彼此的背景 興趣 價值觀等。然而,隨著社會的變遷,年輕男女的相遇方式逐漸多樣化,有更加個性...

    為什麼心臟CTA後需要冠狀動脈造影?

    大家好,我是心血管之家博士。最近,有人問了乙個問題,為什麼心臟CTA後我需要做冠狀動脈造影?今天我們就來談談這個問題!順便說一句,我們日常口腔中所說的心臟CTA通常是指冠狀動脈CTA,即冠狀動脈CT血管造影。首先,讓我們了解一下,什麼是冠狀動脈CTA,為什麼要做冠狀動脈CTA?冠狀動脈CTA代表冠狀...

    我們為什麼需要親密關係? 關於愛情的 10 個真相

    發現親密的真諦,愛的力量,以及生命的完整性。親密關係是人們追求的一種滿足感,是渴望見到對方。心理學家卡爾 羅傑斯 Carl Rogers 曾經說過 愛是深刻的理解和接納。現在,我們將 親密關係的深層含義,聽聽吳志巨集老師分享的關於愛的本質,它如何影響我們的心靈和生活的十句話。.被無條件愛過的人,有自...