【AI-Scientists】SakanaAIのわずか15ドルでアイデア生成、実験、論文執筆をしてくれるAIを徹底解説

AIが科学者の代わりに論文を書く時代が到来!
2024年8月にSakanaAIが発表した「AI-Scientists」は、アイデア生成から実験実行、論文執筆、査読まで完全自動化する革新的なシステムです。
さらに2025年3月には後継の「AI Scientist-v2」が登場し、人間の介入を一切必要とせずに生成した論文が国際会議ICLR 2025のワークショップで史上初めて査読を通過する快挙を達成しました。
本記事では、このAI-Scientistsの仕組みから実際に生成された論文の評価、そして科学研究の未来を変える可能性と課題について徹底解説します。
科学の世界に訪れたAIによる革命の全貌をぜひご覧ください。
\生成AIを活用して業務プロセスを自動化/
AIが研究・論文執筆を自動で行う!?
AI-Scientistsがついに人間を超える…?
AI-Scientistsは2024/8/13に、Sakana AIが公開したAIモデルを使った研究論文執筆・査読システムです。
Xでは多くの人が興味を示している、科学進歩を大幅に前進させる可能性があるAIシステム。
AI-Scientistsは人々の介入をほとんど必要としません。人々の介入を必要としないのが、AI-Scientistsの最大のポイントとも言えます。
AI-Scientistsが自動でブレストを行い、論文レビューを行い、試行錯誤を繰り返して論文を執筆します。さらに執筆された論文をAI-Scientistsが査読を行い、論文内容の修正も行います。
最終的に執筆された論文がこちら

なお、AI Artifactsについて詳しく知りたい方は、こちらの記事も合わせてご覧ください。

AI-Scientistsを実現する技術
AI-Scientistsを実現するために使われている技術は主に大規模言語モデルとAiderです。
大規模言語モデルでは、論文のアイデア出しや先行研究調査を踏まえ、新規性のあるテーマを考えます。
また、研究計画立案やコードの記述、実験実行、結果の可視化などもLLMによって実現しており、論文執筆まで担当をします。
Aiderは、LLMをベースとしたコーディングアシスタントで、AI-Scientistsの実験コードの実装やエラー修正、リファクタリングなどを自動化。
実験の各段階において、Aiderは実行履歴を把握しており、エラーが発生した場合やタイムアウトになった場合には、コードを修正して最大4回まで再試行します。
他にもAPIを使った論文調査やPDF解析なども行われています。AI-ScientistsはLLMを中心技術としていますが、それを支え、その能力を最大限に引き出すためには、コーディングアシスタントやAPI、その他の機械学習技術、そして計算機科学の様々な分野の概念が不可欠です。

AI-Scientistsによる論文査読
AI-Scientistsは論文を生成したのち、自身で生成した論文を査読します。本来であれば、客観的に評価することができないため、論文執筆者が査読者に回ることはありませんがこれがAIを使った論文査読の強みですね。
AI-Scientistsの論文査読精度を検証するために、ICLR 2022 OpenReviewデータセットを用いて自動査読と人々による査読のパフォーマンスを比較しています。このパフォーマンス比較では、500本の論文に対して精度、F1スコア、AUC、偽陽性率、偽陰性率などの評価指標を使用して、AIによる論文査読と人による論文査読のパフォーマンスを測定しています。

表の結果から総合的には人が査読をした方が良いという結果が読み取れます。
特に偽陽性率に関しては、人による査読が0.17であり、AIモデルよりも低いです。偽陽性率が低いということは、誤って不適切な論文を受け入れる可能性が低いということになります。論文は世界に発信するものであり、その影響力は絶大です。
そのため、誤って不適切な論文を世に出してしまうと大変なことになるため、偽陽性率の精度などは今後の改善が期待されます。
AI-Scientistsの具体的な手法
まずAI-Scientistsにテンプレートを与え、アイデアをブレストとしてもらいます。ブレスト結果を新規性のある研究かどうか評価を実施。この時のアイデアには、実験の概要や実験計画、新規性、多くの人々が興味を持つ面白さ、実験可能性を検証して、数値化をします。
アイデアの出し方はまさに人が行っている研究と同じ流れで、FINERの基準に則っていますね。
次にブレストしたアイデアとテンプレートをもとに、提案された実験を実行し、結果を可視化します。実験はコーディングアシスタントのAiderを使って行われます。各実験が完了するとAiderにその結果が与えられ、研究と同じスタイルでメモを取ります。
各実験は最大5回繰り返され、すべての実験が完了したら可視化された内容と実験メモをもとに、論文を執筆するのに必要な情報を全て用意。
次に論文執筆です。AI-ScientistsはLaTexを使って簡潔かつ有益になるよう記述を進めていきます。この時に記述する内容は論文の導入から背景、方法、実験手順、結果、結論の順に行われます。
さらにAI-ScientistsはSemantic Scholar APIを使って、AI-Scientistsが執筆した論文とすでに報告されている論文とを深くして、最も関連性の高い論文を探し出し、先行研究として論文内に追加します。
論文の執筆が終了したら、最後にNeural Information Processing Systemsカンファレンスの査読ガイドラインに基づいて、GPT-4oベースのエージェントを使用して論文の査読を行います。
以上がAI-Scientistsの大まかな流れです。これを人力で行うと研究計画立案から論文投稿までは早くても半年くらいはかかります。それがたった15ドルで論文執筆終了までいけるので、かなり革新的なシステムです。

GitHubにサンプルコードがあるので、実装できる方は参考にしてください。
AI-Scientistsの活用例
AI-Scientistsが実用レベルになると、研究活動の効率化や論文査読の自動化、企業での研究開発支援などに活用することができるでしょう。
研究活動の効率化
新規性のある研究を創出するのは非常に時間と労力がかかります。AI-Scientistsを使うことで、先行研究を調べたり仮説検証を繰り返したりして、新規性のあるテーマを生み出すことができます。また、新規性のあるテーマが思い浮かんでも実験プロトコルを設計したりデータ解析を行ったりと研究者にとっては負担が大きいですし、時間も非常にかかります。
しかしAI-Scientistsを使うことでこれらの論文執筆過程を自動で行うことができ、最終チェックに人の目があれば良いという状態にまで持っていくことができます。
このようにAI-Scientistsを使うことで研究活動が効率化できるでしょう。
論文査読の自動化
AI-Scientistsは論文の査読も自動で行えます。論文の査読者はその分野に明るい人でないと行うことができません。しかし、AI-Scientistsは論文の内容を理解して、科学的な妥当性や新規性、研究プロトコルの適切さなどを評価できるようになるでしょう。
また、実験結果から考えられることと、考察の内容が飛躍していないかなどのチェックも行うことができるようになれば、論文の質自体も向上することが考えられます。
企業での研究開発支援
企業では新製品や新技術の創出が重要です。しかし、新製品や新技術の創出には非常に多くの時間とリソースが必要になります。
その時にAI-Scientistsを活用すれば過去の研究データや特許情報、業界のトレンドを分析して新しいアイデアを自動で創出できるでしょう。
また、企業の研究開発でも実験が必要です。実験は研究過程で時間とコストがかかる部分であり、金銭的に余裕のある企業しか行うことができません。しかし、AI-Scientistsを活用すれば、実験の設計から実験、データ解析までを自動で行うことができ、時間とコストを節約ができます。
さらに研究開発において、倫理的考慮や安全性管理も重要事項です。
AI-Scientistsの論文査読システムを使うことで、研究開発における倫理的問題点や安全性に関する懸念を自動でチェックすることができ、問題が発生する前に対応することが可能になるでしょう。
なお、Google Geminiを使った論文執筆について詳しく知りたい方は、下記の記事を合わせてご確認ください。

論文を100%自動で生成する「AI Scientist-v2」が登場
2025年3月12日、AI Scientistの後継であるAI Scientist-v2によって100%自動生成された論文が、機械学習分野のトップ会議であるICLR 2025(International Conference on Learning Representations)のワークショップにて査読を通過したことを発表しました。
AI ScientistとAI Scientist-v2の違いとプロセスについて
AI Scientistは事前にテンプレートを与えなければいけないのに対し、AI Scientist-v2では完全にAIだけで論文の執筆が可能となっています。
そのAI Scientist-v2の最大の特徴は、仮説検証を段階的かつ体系的に進行する構造化された実験パイプラインにあります。
システムは4段階の実験ステージで構成されています。第1段階で基本的な実装の妥当性を確認し、第2段階でハイパーパラメータを調整、第3段階で研究アジェンダを実行、第4段階でアブレーション研究を行います。各段階では複数のノードが並列実行され、成功・失敗に応じて次のノードが生成される木構造探索を行います。
さらに、図表や可視化の精度向上のためにVision-Language Model(VLM)によるフィードバックループも組み込まれ、生成される論文の可読性・視覚的明瞭性も自動的に改善されるのです。
これらの処理が、人の手を動かすことなく完全に自動で行われるというのが驚きですよね・・・。
ただ、注意しなければならないのは、AI Scientist-v2は単体で動作するわけではなく、GPT-4やClaude、Geminiといった外部のLLMと連携しなければならないということです。
フェーズによって利用するLLMを変更するということも可能なようです。
AI Scientist-v2によって生成された論文の内容と評価
AI Scientist-v2はその性能を検証するため、ICLR 2025の「I Can’t Believe It’s Not Better」ワークショップに3本の完全にAIが生成した論文を投稿しました。
受理された論文「Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization」は、ニューラルネットワークの構成的汎化を改善するための正則化手法を提案したものです。
仮説に反し提案手法は期待した改善をもたらさず、場合によっては性能を低下させるという「負の結果」を報告しました。
査読者は平均6.33点(6点、7点、6点)を付け、上位45%の評価を得る結果となりました。
このことによってAI Scientist-v2はワークショップレベルの研究は実行可能ですが、まだトップカンファレンスレベルには至らないということが判明しました。
AI Scientistの今後と課題
AI Scientistから大幅な性能が上がったAI Scientist-v2は画期的な成果を上げた一方で、いくつかの重要な課題も明らかになりました。
まず、前述した通り現在の性能はワークショップレベルに留まっており、トップカンファレンス並みの厳密な研究には到達していません。また、真に新規性の高い仮説の生成や、深い専門知識に基づく実験設計の正当化など、人間の科学者が得意とする領域では依然として制約があります。
技術的課題としては、引用の正確性、図表キャプションの精度、実験設計の厳密性などの改善が必要です。また、データセットの重複問題や、複雑な科学的概念の理解不足も指摘されています。
将来展望として、より高度なLLMの活用、科学的推論能力の向上、専門分野への特化などが期待されます。
さらに重要なのは、AI生成研究の倫理的側面への対応です。透明性確保、査読プロセスの公正性の維持、AI生成コンテンツの適切な表示など、科学コミュニティ全体での議論と合意形成が急務となっています。
AI Scientist-v2は科学研究において新時代の扉を開きましたが、その責任ある発展には慎重なアプローチが求められます。

生成系AIの業務活用なら!
・生成系AIを活用したPoC開発
・生成系AIのコンサルティング
・システム間API連携
最後に
いかがだったでしょうか?
研究や開発の効率化にAIをどう組み込むかは競争力を左右します。最適な活用方法を一緒に探りましょう。
株式会社WEELは、自社・業務特化の効果が出るAIプロダクト開発が強みです!
開発実績として、
・新規事業室での「リサーチ」「分析」「事業計画検討」を70%自動化するAIエージェント
・社内お問い合わせの1次回答を自動化するRAG型のチャットボット
・過去事例や最新情報を加味して、10秒で記事のたたき台を作成できるAIプロダクト
・お客様からのメール対応の工数を80%削減したAIメール
・サーバーやAI PCを活用したオンプレでの生成AI活用
・生徒の感情や学習状況を踏まえ、勉強をアシストするAIアシスタント
などの開発実績がございます。
生成AIを活用したプロダクト開発の支援内容は、以下のページでも詳しくご覧いただけます。
➡︎株式会社WEELのサービスを詳しく見る。
まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。
➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。
セミナー内容や料金については、ご相談ください。
また、大規模言語モデル(LLM)を対象に、言語理解能力、生成能力、応答速度の各側面について比較・検証した資料も配布しております。この機会にぜひご活用ください。