【Nougat】PDF上の画像や数式をOCRしてくれる神ツールが登場

Nougat AIツール meta

皆さん、Nougatという論文読み込みツールをご存知ですか?

画像からテキストに変換するOCR技術を使い、LaTeXという論文を記述する言語に変換するんですが……

え、ご存知ないんですか!!??まさかぁ(茶番)

Nougatは、FacebookのMeta社が開発しました。論文をChatGPTなどの生成AIに読み込ませるのは一苦労ですが、それがめちゃくちゃ楽になるんですよ!!

ということで、今回の記事ではNougatの概要、導入、実際に使ってみた感想についてまとめています。
この記事を最後まで読むと、論文読み込みツールのNougatを理解できるようになります。

ぜひ最後までご覧ください!

目次

Nougatの概要

NougatはFacebook Researchによって開発された学術文書のPDFパーサーです。パーサーとは、文書やデータを解析して構造を抽出するプロセスのこと。
このツールでは、OCRという画像読み込みの技術が使われているみたいです。

Nougatの最大の特徴は、数式や文章がぐにゃぐにゃでも読み込むことができ、Latex形式で出力してくれること。

ChatGPTに論文の内容を読み込ませるときなど重宝しそうですね。一般的なChatGPTユーザーだけでなく、研究者、データサイエンティスト、エンジニアなど多岐にわたり利用できます。

Nougatの料金体系

Nougatはオープンソースのため、無料で使用できます。

それでは導入方法をみていきましょう。

Nougatの導入方法

Hugging Faceで公開されているURLをクリックするだけで簡単に使えます。

あわせて読みたい
Nougat - a Hugging Face Space by ysharma Discover amazing ML apps made by the community

Nougatを実際に使ってみた

それでは、PDFをアップロードしてみます。

今回使う論文はこちら(Nougatの論文)です。

アップロードし、Run NOUGATをクリック。

このように、LaTeX形式になり出力されます。

以上で、Nougatの操作方法は終了です。

あくまで、Nougatは論文からLaTeX形式への変換ツールです。

LaTeXをレビュー(PDFに変換)する機能はないのでご留意ください。
正しいLaTeX形式かどうか確認するにはご自身で環境を用意する必要がございます。

Nougatの推しポイントは本当なのか?

以下の解析が得意だということだったので、上記のNougatに関する論文の実行結果から確認してみます。

  • テキスト
  • 数式

テキストの解析

まずは、テキストの解析です。

実際の論文では、「1.5%」ではこうなってました。

それがNougatを使うと、このようなLaTeX形式で出力されてました。

実際に書かれていた箇所を、テキストでも載せておきます。

$1.5%$

この「$」で挟む記法は、数式を表現するもの。

こうすることで、1.5% を論文上でキレイに書けるのですが、ちょっと惜しい。

LaTeXでは、以下のように「数字」と「%」の間に「\」がないとだめなんですね。

$1.5\%$

厳密なLaTeX形式でなくても、LLMにデータとして入力するときは問題ないように思えますが意外と基礎的なところができていないようです。

数式の解析

次は数式の解析です。

実際の論文では、赤枠のように、Xから始まる数式があります。

それがこうなってました。

実際に書かれていた箇所を、テキストでも載せておきます。

これは先ほどの数式をLaTeX形式で表しています。
例えばですが、「Rの3乗」を「{R}^3」としています。

$\mathbf{x}\in\mathbb{R}^{3\times H_{0}\times W_{0}}$,

本当にかけているのか、ChatGPTに聞いてみると……

理解してくれてます!

実際に私のLaTeX実行環境に貼り付けたところ以下のようになりました。

確かに一緒になってますね!

表の解析

次は、表の解析です。

実際の論文ではこうなってました。

横線があったりなかったりする少し複雑な表です。

それがLaTeX形式で、表が書かれています。

実際に書かれていた箇所を、テキストでも載せておきます。

\begin{table}

\begin{tabular}{l|l c c c c c c} 

\hline 

\hline 

Method & Modality & Edit distance $\downarrow$ & BLEU $\uparrow$ & METEOR $\uparrow$ & Precision $\uparrow$ & Recall $\uparrow$ & F1 $\uparrow$ \\ 

\hline 

PDF & All & 0.255 & 65.8 & 82.1 & 77.1 & 81.4 & 79.2 \\ 

\hline 

GROBID & All & 0.312 & 55.6 & 71.9 & 74.0 & 72.1 & 73.0 \\ 

\cline{2-8} 

& Tables & 0.626 & 25.1 & 64.5 & 61.4 & 80.7 & 69.7 \\ 

\hline 

LaTeX OCR & Plain text & 0.363 & 57.4 & 69.2 & 82.1 & 70.5 & 75.9 \\ 

& Math & 0.727 & 0.3 & 5.0 & 11.0 & 8.6 & 9.7 \\ 

\hline 

\multirow{4}{*}{Nougat small (250M)} & All & 0.073 & 88.9 & 92.8 & 93.6 & 92.2 & 92.9 \\ 

\cline{2-8} 

& Tables & 0.220 & 68.5 & 78.6 & 75.0 & 79.8 & 77.3 \\ 

\cline{2-8} 

& Plain text & 0.058 & 91.0 & 94.3 & 96.1 & 95.3 & 95.7 \\ 

\cline{2-8} 

& Math & 0.117 & 56.0 & 74.7 & 77.1 & 76.8 & 76.9 \\ 

\hline 

\multirow{4}{*}{Nougat base (350M)} & All & 0.071 & 89.1 & 93.0 & 93.5 & 92.8 & 93.1 \\ 

\cline{2-8} 

& Tables & 0.211 & 69.7 & 79.1 & 75.4 & 80.7 & 78.0 \\ 

\cline{2-8} 

& Plain text & 0.058 & 91.2 & 94.6 & 96.2 & 95.3 & 95.7 \\ 

\cline{2-8} 

& Math & 0.128 & 56.9 & 75.4 & 76.5 & 76.6 & 76.5 \\ 

\hline 

\hline 

\end{tabular}

\end{table}

動くか確かめようと思って、LaTeXの実行環境に貼り付けてみましたがエラーでした。

ChatGPTに聞いてみたら、エラーについて指摘してくれました。
横罫線の数があってないなど、いくつか問題があったようです。

修正版をLaTeXで再度、確認してみたらうまくいきました!

OCRで表を読み取るのはちょっと難しかったみたいですね。

最後に結果を表にまとめます。

項目成績
テキスト
数式

論文のPDFから、LaTeX形式に直してくれるということで、LLMに論文を活用するのが捗りそうですね!

なお、英語と日本語に特化したOCRツールについて知りたい方はこちらをご覧ください。
【Surya】英語・日本語の正確な文字起こしができる無料のマルチリンガルAIOCRツール!使い方~実践まで

まとめ

Nougatの概要、導入、使ってみた感想、そして推しポイントの検証結果をまとめました。

Nougatの概要

NougatはFacebook Researchによって開発された学術文書のPDFパーサーです。パーサーとは、文書やデータを解析して構造を抽出するプロセスのこと。PDF文書のテキストだけでなく、LaTeXの数式やテーブルも理解し、解析できます。

このツールでは、OCR(画像読み込み技術)が使われてます。

ChatGPTに論文の内容を読み込ませるときなど重宝しそうです。

Nougatの導入

Hugging FaceのURLが公開されているのでこちらを活用ください。

あわせて読みたい
Nougat - a Hugging Face Space by ysharma Discover amazing ML apps made by the community

Nougatを使ってみた

Nougatの論文を入力してみました。

今回は、1000秒ほど時間がかかり、以下のように論文がLaTeX形式に変換されていました。

Nougat 推しポイントの検証結果

推しポイント3つが正しく変換されていたのか確認してみました。

項目成績
テキスト
数式

数式の変換は、完璧でした!
一方で、「テキスト」、「表」の変換はケアレスミスがありました!

OCRなので、複雑な表現になると難しいときがあるように感じます。

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ
無料相談

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、サービス紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • Leon Kobayashi

    必ずフォローすべきAIエバンジェリスト(自称) => 元東証一部上場ITコンサル (拙者、早口オタク過ぎて性に合わず退社)<-イマココ 【好きなもの】リコリコ・しゃぶ葉 宜しくおねがいします。

  • URLをコピーしました!
  • URLをコピーしました!
目次