MATHPILE是乙個高質量、大規模的數學語料庫

Mondo 科技 更新 2024-01-31

介紹

Mathpile:乙個 29 GB 的高質量、大規模數學語料庫,包含大約 95 億個代幣。 涵蓋從 K-12 到大學、研究生水平和數學競賽的內容,包括高質量的教科書、講義、科學**等。 提供詳細的資料記錄,包括資料集**和質量注釋,提高透明度,並允許使用者根據自己的需求定製資料。

資料和處理:資料最初是從許多不同的資料來源生成的,總計約為 520 億個代幣,即 2 個2 TB 資料。

源資料包括 StackExchange、Proofwiki、Common Crawl、Arxiv 等。 這些資料經過一系列嚴格的處理過程,包括資料預處理和預過濾、語言識別、清洗過濾和重複資料刪除。

Mathpile 語料庫:經過處理後,得到乙個以數學為中心的語料庫,即 mathpile。 該語料庫共有 29 GB 的資料,包含約 903,000 個文件和約 95 億個令牌。

主要特點:

1. MathPile Focus:MathPile 是專門為數學領域設計的,與具有一般或多語言重點的語料庫明顯不同。

2. 多樣性:Mathpile 彙總了來自各種來源的資料,包括教科書(包括講義)、ARXIV、維基百科、Proofwiki、StackExchange 和網頁。 它涵蓋了適合 K-12、大學、研究生水平和數學競賽的數學內容。 特別是,該專案出版了大量高質量的教科書(約0.)。19b 代幣)。

3、高質量:專案堅持“少即是多”的原則,認為資料質量優於數量,即使在預訓練階段也是如此。 該項目的資料收集和處理工作包括複雜的預處理、預過濾、清理、過濾和重複資料刪除,以確保語料庫的高質量。

4. 資料文件:為提高透明度,請提供詳細的資料記錄,包括資料集**和質量注釋,以提高透明度,並允許使用者根據需要自定義資料。 例如語言識別分數和符號與單詞的比率。 這使使用者可以靈活地根據自己的需求定製資料。

還測試了資料汙染,以消除 MATH 和 MMLU-STEM 等基準集中的重複項。

有了這個專門的語料庫,研究人員和開發人員能夠更有效地提高語言模型在數學推理中的能力。

專案位址:gair-nlpgithub.io/mathpile/

*:arxiv.org/abs/2312.17120

github:github.com/gair-nlp/mathpile

資料集:HuggingFaceco/datasets/gair/mathpile

相關問題答案

    打造優質幼兒園,徐匯“不讓任何乙個人掉隊”。

    月日上午,上海學前教育學院第二屆學前教育應用論壇暨徐匯區學前教育高質量發展實踐創新研討會在上海師範大學 大廳舉行。本次論壇由上海學前教育學院 徐匯區教育局聯合舉辦,圍繞 全面高質量 建設任務和 成就人人 的建設理念,聚焦學科前沿 實踐創新 區基行動,為探索上海學前教育中國式現代化實踐貢獻理論和實踐價...

    高質量友誼的 5 個基本原則!

    大家好!我是 Luna,一位自律的媽媽,她相信堅持不懈的力量是她的人生信條 太陽拱死,功德不捐!今天就讓我們和你談談 是什麼造就了高質量的友誼本主題。在之前的文章中,我談到了四種有毒的朋友,這篇文章分享了我認為高質量友誼所必需的 個原則。第乙個原則 彼此的三種觀點是相似的。俗話說 道是不同的,他們之...

    把握“五個堅持”,聚焦高質量發展

    明年是推進經濟鞏固提公升,加快綠色低碳高質量發展,落實 十四五 規劃 推進現代化強省建設的關鍵之年。省委十二屆五中全會暨省委經濟工作會議提出,做好明年經濟工作,要突出抓好 五個堅持 把高質量發展作為新時代硬道理,緊密結合實際,創造性地開展工作,全面落實第一次經濟工作會議提出的 五個必須 重要落實。處...

    淺談網路公益事業的高質量發展

    何旭,西北大學公益研究院.進入新世紀以來,隨著資訊科技的發展,慈善事業的發展呈現出一種新的業態,網路慈善就是其中之一。作為一種新型的慈善模式,它以網際網絡為核心媒介,依託網際網絡技術和第三方電子支付平台開展慈善活動,包括線上募捐 捐贈變現和資訊反饋 網路慈善監管 慈善文化宣傳等。網路公益事業因其傳播...

    如何選擇優質的斷橋門窗?

    隨著人們生活水平的提高,對居住環境的要求也越來越高,斷橋門窗作為現代建築的重要組成部分,在保證居住環境的舒適性和安全性方面發揮著關鍵作用。然而,市場上的斷橋門窗品牌和型號琳琅滿目,如何選擇一款優質的斷橋門窗成為眾多消費者關注的問題。本文將從材料 結構 隔音 防盜等方面為您介紹如何科學合理地選擇優質的...