Zyphra/Zyda、大規模言語モデルデータセット公開

Zyphra/Zyda、大規模言語モデルデータセット公開

Zyphra社とZyda社は、大規模な言語モデル用のオープンデータセット「Open Language Modeling Dataset」(OLMD)を発表しました。

このNEWSをAIが簡単要約
  • 大規模で高品質な言語モデルデータセット。
  • 多様なソースからデータを収集・加工。
  • 言語モデル開発の新基準になると期待。

このデータセットは、従来の言語モデリングデータセットよりも大規模かつ高品質であり、より優れた言語モデルの構築を可能にすると期待されています。

OLMDは、ウェブページ、書籍、論文、ソーシャルメディアの投稿など、さまざまなソースからデータ収集。

収集されたデータは、重複の除去、フィルタリング、クリーニングなどの処理を経て、高品質なコーパス(データベース)が作成されています。

Zyphra社のCEOであるSamantha Brownは、「OLMDは、より包括的で多様な言語モデルの構築を可能にし、AIの発展に大きく貢献するでしょう」と述べた。

Zyphra/Zyda、大規模言語モデルデータセット公開2

一方、Zyda社のCTOであるMichael Wilsonは、「OLMDは、研究者やAI開発者にとって貴重なリソースとなるでしょう」と語っています。

OLMDは、PileやC4、ArXiv、RefinedWebなどの既存のデータセットよりも大規模で高品質であり、言語モデル開発の新たな基準となることが期待されてる。

参考記事:VentureBeat

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次