【やってみた】画像生成AI AnyTextの使い方と日本語対応を徹底解説

AIツール

2024-10-02

今回はアリババ社が開発した、AnyTextという画像生成AIツールをご紹介します。AnyTextができることは、画像の生成とテキストの生成になります。

AnyTextは、テキストから画像を生成し、画像に含まれるテキストを作成または修正し、画像の雰囲気と調和させることができます。AnyTextの特徴として英語だけでなく、中国語・日本語・韓国語など、様々な言語のテキストを生成できます。

この記事ではAnyTextの特徴や使い方、実際の生成例などをご紹介します。AnyTextを実際に使ってみて分かった感想や、得意・不得意なことについてもまとめています。参考までに実際の使い方が説明されている動画を添付しておきます！

というわけで今回は、アリババ社が開発した画像生成AIのAnyTextについてまとめていきます。最後まで読んだ方は、AnyTextの使い方をマスターし、明日から様々なオリジナル画像を生成できるようになりましょう！ぜひ、最後までご覧ください。

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

AnyTextの概要

AnyTextはアリババ社が開発した画像生成AIです。画像生成AIの中でも、単に画像を生成するだけでなく、プロンプトによる指示で画像に文字を入れることができます。

生成AIツールを使って、画像にテキストを追加したり修正したりするのは、簡単なようで意外と難しい作業です。

画像の雰囲気に合わせたフォントや色、配置やサイズなど、細かい調整が必要です。また、画像に含まれるテキストを変更したい場合は、元のテキストを消してから新しいテキストを入力する必要があります。これらの作業は、時間と労力がかかりますし、画像の品質を損なう可能性もあります。

そこで、画像生成AIのAnyTextが役に立ちます。AnyTextは画像内テキスト生成・編集AIで、画像に含まれるテキストを作成または修正し、画像の雰囲気と調和させることができます。

さらに、英語だけでなく中国語・日本語・韓国語など、様々な言語のテキストを生成できるという特徴があります。画像生成ツールではMidjourneyやDALL-E 3が有名ですが、画像に文字を入れるのは英語が精一杯で、加えて正確性や精度も高いとは言えないです。

しかしAnyTextでは、英語だけでなく中国語や日本語で使われる漢字をプロンプトで指定することで、画像に入れることができます。

また、AnyTextは英語と中国語のテキスト生成において、高いスコアを出しています。

GitHubのサイトによると、生成されたテキストの精度を評価するためにSentence Accuracy (Sen.ACC)とNormalized Edit Distance (NED)による評価では、AnyTextは高いスコアを出していることがわかります。

以上がAnyTextの概要になります。AnyTextはこれまで画像生成AIが苦手としていた、画像への漢字の文字入れができるようになったのが主な特徴になります！

AnyTextの概要を最後にまとめます。

開発会社：アリババ
商用利用：記述なし
ライセンス：Apache-2.0 license
日本語対応：一部漢字対応

なお、難しいパラメータの調整は不要、人気の画像生成AIツールのFooocusについて知りたい方は、下記の記事を合わせてご確認ください。

WEEL

【Fooocus】人気1位の最強画像生成AIツール！使い方・インストール方法～実践まで | WEEL 本記事では、Fooocusという画像生成ツールの概要や導入方法、そして実際に触ってみた感想を紹介します。無料で、しかも簡単にハイクオリティな画像が作れる優れもの。最新…

AnyTextの料金体系

AnyTextを利用するにあたって、発生する費用はありません。HuggingFaceにDemoサイトが公開されているので、ブラウザからすぐに無料で利用することができます。ChatGPTのDALL-E3やAdobeのFireflyなど他の画像生成AIは有料なのに対して、無料で使えるAnyTextはかなりお得であるといえます。利用する用途に応じて、使い分けましょう！

AnyTextを実際に使ってみた

AnyTextはHuggingFaceにDemo版が上がっており推奨されているので、こちらから使ってみましょう。

参考記事：AnyTextデモページ(Hugging Face)

HuggingFaceを開くと、こちらの画面が開きます。この画面から、プロンプトやパラメーターを設定して

プロンプトによる画像生成と文字入れ

まずは基本的な使い方である、プロンプトからの画像生成と文字入れのやり方について説明します。プロンプトから画像生成を行うには、赤枠で示した2つの場所を調整しつつ生成を行います。

Prompt（指示文）の設定

生成したい画像をプロンプトで指定します。今回は以下のプロンプトを指定します。

プロンプトの内容としては、「アライグマが”毎日学習”と書かれた黒板の前に立っている」という内容です。とても勉強熱心なアライグマですね。

Sort Position（位置）の設定

生成する画像のプロンプトを指定したら、次は文字を表示させる位置を指定します。今回はプロンプトによる画像と文字の生成なので、「Text Generation（文字生成）」のタグをまずは選択します。

次に、Pos-Methodで位置を指定する方法を選択します。今回は基本的な生成を試してみるために、「Manual-draw」を選択します。最後に、Manual-drawの場合は、実際に文字を出現させる位置を視覚的に指定できます。

Sort Positionにある画面の上で、ドラッグ＆ドロップで文字を表示させたい位置を指定できます。今回の場合は、黒板の上に掲げられた標語のように表示させたいので、以下の通り画像の上部に線を引いてみました。

実行と結果の確認

設定が完了したら、RUNボタンをクリックすると画像を生成することができます。実際に生成した画像は以下の通りです。

上手く生成できていますね！額縁のように出すにはプロンプトでより詳細に指定する必要があると思いますが、位置を指定した通り画像の上の方に文字が入っています。”毎日勉強”という漢字も、しっかり生成できているのも確認できました。

画像に含まれるテキストの修正

次に画像の含まれているテキストをプロンプトを使って修正するやり方を説明します。今回は先ほど生成した画像に含まれている”毎日勉強”という文字を、別の文字に置き換えます。それではさっそくやってみましょう。

Prompt（指示文）の設定

まずはプロンプトで、どのように画像を修正したいのかを指定します。今回は以下のプロンプトを指定します。

先ほどは”毎日勉強”と大変やる気のあるアライグマでしたが、今回は”毎日休憩”とやる気のないアライグマにしたいと思います。プロンプトでは、置き換えたい言葉を指定します。具体的に置き換えたい場所は、次のステップで設定します。

文字を置き換えたい場所の設定

次にオリジナル画像に対して、文字を置き換えたい場所を指定します。ここで2つの画像を用意する必要があります。まずはオリジナルの画像です。今回は先ほど生成した、”毎日勉強”という文字が黒板に書かれた画像を用意します。

次に文字を置き換えたい場所が指定されている、参考画像を用意します。今回の場合は、”毎日休憩”と黒板に書きたいので、”勉強”を”休憩”に置き換えます。そのため、参考画像では、文字を置き換えたい”勉強”の部分を黒塗りにした画像を用意してアップロードします。黒塗りしたイメージはこちらです。

公式ドキュメントで黒塗りをするべきという記述は特に見当たらないのですが、用意されているサンプルでも黒塗りされていたのでこの方法が無難でしょう。

オリジナルの画像と参考画像が用意できたら、どちらもアップロードします。Oriにオリジナルの画像を、Refに参考画像を以下のようにアップロードしたら、準備完了です。

実行と結果の確認

設定が完了したら、RUNボタンをクリックすると画像を生成できます。実際に生成した画像は以下の通りです。

いかがでしょうか！オリジナル画像では”勉強”と書いてあった黒板の文字が、”休憩”に変わっています。文字のフォントや雰囲気も、隣の”毎日”のテイストと違和感なく置き換わっています。

AnyTextの英語＆中国語の文字入れ性能

それでは、AnyTextの推しポイントである、英語・中国語の文字入れ性能を検証していきます。。今回はChatGPTのPlusユーザーであれば誰でも使える、DALL-E3と比較してみました。

英語の検証では、「”AnyText” is written on a blue t-shirt」というプロンプトを使って検証します。青色のTシャツに”AnyText”という文字が入るイメージです。

まずは、DALL-E3で生成した画像がこちらです。

続いて、AnyTextで生成した画像がこちらです。

英語の検証において、どちらも正しく文字入れできていることが確認できました。どちらのモデルでも、きちんと大文字と小文字の区別も表現されています。

個人的な感想ですが、AnyTextはリアリティのある画像が生成される傾向があるように感じます。

検証観点としては、英語のテキストにおいてはAnyTextとDALL-E3、共に高いクオリティで文字入れができています。

中国語の検証

それでは、今度は中国語の文字入れについて検証します。中国語の検証では、「”你好” is written on a blue t-shirt」というプロンプトを使って検証します。青色のTシャツに”你好”という文字が入るイメージです。

まずは、DALL-E3で生成した画像がこちらです。

これはちょっと正確ではありませんね。”你好”が”こんにちは”という意味であることは分かっているようですが、正しく文字入れできているとは言えません。

それでは、AnyTextで生成してみましょう。

はっきりと”你好”と入っていますね！文字の崩れもなく、正確に入っています。

検証結果として、中国語のテキストについてはAnyTextのみ正しく文字入れをすることができました。

DALL-E3では入力したプロンプトの意味さえ理解しているものの、正しく表現できていない一方で、AnyTextの方が正確に”你好”と文字が入る結果となりました。

検証結果と結論

どちらも英語の文字入れは行えますが、中国語の文字入れではAnyTextが圧勝しました！
さすがアリババが開発した画像生成AIということだけあって、中国語の文字入れにはかなり力が入っているようです。

その他の違いとして、DALL-E3などのモデルでは文字入れをする場所をプロンプトで指定する必要がありますが、AnyTextではGUI画面で直感的に文字を入れる場所を指定できるので、AnyTextの方が使いやすいといった点もあります。

AnyTextの評価

これまでのまとめとして、AnyTextの評価をまとめてみます。

日本語対応	一部漢字は対応
使う職業	マーケッター・デザイナー
オススメ度	★★
今後も使いたいか	・AnyTextは英語・中国語の文字入れが可能な画像生成AI。・プロンプトでの指定だけでなく、GUIで文字を入れたい場所を指定できる・さらに既存の画像に対しても、修正したい箇所を指定する事で、自然な形で修正ができる・日本語については一部の漢字に対応。より精度が高まれば、広告のバナー作成などで大活躍するポテンシャルあり

漢字の文字入れに対応したAnyTextを使いこなそう

AnyTextはアリババが開発した画像AIで、プロンプトから画像を作るのと同時に、指定した文字を指定した場所に入れるようになった画期的な画像AIです。さらにオリジナル画像に対しても、修正箇所を指定することで、直感的に文字の修正が行えます。

生成画像AIでの文字入れは、今までは非常に困難だったのが簡単で直感的に、かつ高い精度で入れられるようになっていて、かなり驚きました。このペースで画像生成AIが進化していくのであれば、ひらがなを含めた日本を自由に文字入れできるようになる日も近そうです。

AnyTextをはじめとした文字に対応した画像生成AIは、広告・ソーシャルメディア・教育資料など、多くの分野での応用が期待されます。たとえば、商品やサービスの紹介用の画像や動画を作成したり、ブログ記事やSNS投稿に合わせた文章や絵文字を追加したりすることも画像生成AIで対応できるようになるでしょう。

AnyTextはアリババ社のサービスなので、今後もさらなるアップデートが期待できます。引き続き注目していきましょう。

最後に

いかがだったでしょうか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ