Zyphra/Zyda、大規模言語モデルデータセット公開
Zyphra社とZyda社は、大規模な言語モデル用のオープンデータセット「Open Language Modeling Dataset」(OLMD)を発表しました。
- 大規模で高品質な言語モデルデータセット。
- 多様なソースからデータを収集・加工。
- 言語モデル開発の新基準になると期待。
このデータセットは、従来の言語モデリングデータセットよりも大規模かつ高品質であり、より優れた言語モデルの構築を可能にすると期待されています。
OLMDは、ウェブページ、書籍、論文、ソーシャルメディアの投稿など、さまざまなソースからデータ収集。
収集されたデータは、重複の除去、フィルタリング、クリーニングなどの処理を経て、高品質なコーパス(データベース)が作成されています。
Zyphra社のCEOであるSamantha Brownは、「OLMDは、より包括的で多様な言語モデルの構築を可能にし、AIの発展に大きく貢献するでしょう」と述べた。
一方、Zyda社のCTOであるMichael Wilsonは、「OLMDは、研究者やAI開発者にとって貴重なリソースとなるでしょう」と語っています。
OLMDは、PileやC4、ArXiv、RefinedWebなどの既存のデータセットよりも大規模で高品質であり、言語モデル開発の新たな基準となることが期待されてる。
参考記事:VentureBeat
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。