MATHPILE是乙個高質量、大規模的數學語料庫

Mondo 科技更新 2024-01-31

介紹

Mathpile：乙個 29 GB 的高質量、大規模數學語料庫，包含大約 95 億個代幣。涵蓋從 K-12 到大學、研究生水平和數學競賽的內容，包括高質量的教科書、講義、科學**等。提供詳細的資料記錄，包括資料集**和質量注釋，提高透明度，並允許使用者根據自己的需求定製資料。

資料和處理：資料最初是從許多不同的資料來源生成的，總計約為 520 億個代幣，即 2 個2 TB 資料。

源資料包括 StackExchange、Proofwiki、Common Crawl、Arxiv 等。這些資料經過一系列嚴格的處理過程，包括資料預處理和預過濾、語言識別、清洗過濾和重複資料刪除。

Mathpile 語料庫：經過處理後，得到乙個以數學為中心的語料庫，即 mathpile。該語料庫共有 29 GB 的資料，包含約 903,000 個文件和約 95 億個令牌。

主要特點：

1. MathPile Focus：MathPile 是專門為數學領域設計的，與具有一般或多語言重點的語料庫明顯不同。

2. 多樣性：Mathpile 彙總了來自各種來源的資料，包括教科書（包括講義）、ARXIV、維基百科、Proofwiki、StackExchange 和網頁。它涵蓋了適合 K-12、大學、研究生水平和數學競賽的數學內容。特別是，該專案出版了大量高質量的教科書（約0.）。19b 代幣）。

3、高質量：專案堅持“少即是多”的原則，認為資料質量優於數量，即使在預訓練階段也是如此。該項目的資料收集和處理工作包括複雜的預處理、預過濾、清理、過濾和重複資料刪除，以確保語料庫的高質量。

4. 資料文件：為提高透明度，請提供詳細的資料記錄，包括資料集**和質量注釋，以提高透明度，並允許使用者根據需要自定義資料。例如語言識別分數和符號與單詞的比率。這使使用者可以靈活地根據自己的需求定製資料。

還測試了資料汙染，以消除 MATH 和 MMLU-STEM 等基準集中的重複項。

有了這個專門的語料庫，研究人員和開發人員能夠更有效地提高語言模型在數學推理中的能力。

專案位址：gair-nlpgithub.io/mathpile/

*：arxiv.org/abs/2312.17120

github：github.com/gair-nlp/mathpile

資料集：HuggingFaceco/datasets/gair/mathpile