NLPとAIで進化するタンパク質解析

NLP AI タンパク質解析

ジョンズ・ホプキンス大学やUNSWシドニーの研究者たちが、自然言語処理(NLP)技術を用いたタンパク質解析のための新しいデータセット「ProteinLMDataset」と評価ベンチマーク「ProteinLMBench」を開発しました。

このNEWSをAIが簡単要約
  • ジョンズ・ホプキンスらがProteinLMDataset開発
  • データセットはAIのタンパク質解析向上
  • 新評価基準がAIモデルの精度を強化

ProteinLMDatasetは、17.46億トークンの自己教師あり事前トレーニングデータと、893,000の指示を含む監督付きデータから成り立っています。これにより、AIモデルがタンパク質配列を解読する能力が向上します。

ProteinLMBenchは、944の厳密に検証された選択肢問題を含み、タンパク質の特性や配列に関するモデルの性能を評価することが可能です。

これらのリソースは、タンパク質配列とテキスト記述の直接対応を確立することで、AIモデルのトレーニングと評価の質を大幅に向上させることを目指しています。

現在のデータセットの不足やバイアスの問題に対処し、UniProtKBやRefSeqなどの既存リポジトリが抱える課題にも対応。

研究チームは、この新しいデータセットとベンチマークが、タンパク質研究におけるAI技術の進化を促進することを期待しています。

参考記事:MultiPlatform.ai

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。

最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

  • URLをコピーしました!
  • URLをコピーしました!
目次