Zyphra/Zyda、大規模言語モデルデータセット公開

2024-06-08

Zyphra/Zyda、大規模言語モデルデータセット公開

Zyphra社とZyda社は、大規模な言語モデル用のオープンデータセット「Open Language Modeling Dataset」(OLMD)を発表しました。

このNEWSをAIが簡単要約

大規模で高品質な言語モデルデータセット。
多様なソースからデータを収集・加工。
言語モデル開発の新基準になると期待。

このデータセットは、従来の言語モデリングデータセットよりも大規模かつ高品質であり、より優れた言語モデルの構築を可能にすると期待されています。

OLMDは、ウェブページ、書籍、論文、ソーシャルメディアの投稿など、さまざまなソースからデータ収集。

収集されたデータは、重複の除去、フィルタリング、クリーニングなどの処理を経て、高品質なコーパス(データベース)が作成されています。

Zyphra社のCEOであるSamantha Brownは、「OLMDは、より包括的で多様な言語モデルの構築を可能にし、AIの発展に大きく貢献するでしょう」と述べた。

Zyphra/Zyda、大規模言語モデルデータセット公開2

一方、Zyda社のCTOであるMichael Wilsonは、「OLMDは、研究者やAI開発者にとって貴重なリソースとなるでしょう」と語っています。

OLMDは、PileやC4、ArXiv、RefinedWebなどの既存のデータセットよりも大規模で高品質であり、言語モデル開発の新たな基準となることが期待されてる。

参考記事：VentureBeat

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

メルマガに登録する

資料をダウンロードする

URLをコピーしました！

URLをコピーしました！

「日本一透明性の高いAIプロフェッショナル集団」
を目指して

私たちは、AIに関わるすべての人に向けて、透明性の高い適切な情報発信と開発を行います。
「WEELは、一番地に足ついたAI情報を教えてくれる」
と思っていただけるよう、透明性高い事業運営を行なって参ります。

私たちは、AIに関わるすべての人に向けて、
透明性の高い適切な情報発信と開発を行います。
「WEELは、
一番地に足ついたAI情報を教えてくれる」
と思っていただけるよう、
透明性高い事業運営を行なって参ります。

無料で相談してみる

会社紹介資料ダウンロード

通勤時間で読める

生成AIメールマガジンを読む