【生成AIトレンドマガジン】SDXL TurboやSelf-Operating Computer、Pika1.0など先週話題になったオープンソースAIを7個紹介

AIトリビア

2023-12-042024-04-03

生成AIトレンド SDXL-Turbo Self-Operating-Computer Pika1.0

WEELメディア事業部AIライターのたけしです。

2023年12月現在、AI業界には数多くのAIツールが存在します。その中にはルーティンワークを自動化するものや、画像を一瞬で生成するものなど、業務効率化に役立つツールもあります。

これらのAIツールがどのように業務に役立つのか、気になる方も多いでしょう。

というわけで今回は、2023年12月現在、世界中で注目を集めている最新のAIツール7選を紹介します。

最後までご覧いただき、気になるツールがあればぜひ実際に試してみてください！

＼生成AIを活用して業務プロセスを自動化／

【無料】専門家に相談する

【Self-Operating Computer】マウス・キーボードを自動で操作

「Self-Operating Computer」は、マウス・キーボードを自動で操作できるAIツールです。

自然言語で指示を与えるだけで、マルチモーダルAIが指定タスクを実施する仕組みになっています。

【衝撃】

視覚的にGUIを理解し、Webサイトやアプリ、エディタ上でXY座標を捉えて操作するAIが登場。

・多モーダルモデルを活用した自己運用コンピューターフレームワーク
・GPT-4-Visionを含む多彩なモデルのサポート
・CodeInterpreterのGUI版とも言える技術
・事務作業の効率化を実現

続く>> pic.twitter.com/GL8a8wfeD5
— 木内翔大＠SHIFT AI代表「日本をAI先進国に」𝕏 (@shota7180) November 27, 2023

Self-Operating Computerの主な特徴は以下の2点です。

GPT-4Vを含む、さまざまなマルチモーダルモデルに対応
パソコン画面上のXY座標（縦横の位置）を正確に捉えてマウスクリックを実施

Self-Operating Computerを活用すれば、これまでルーティンワークにかけていた時間を大幅に短縮できます。

例えば以下は、Self-Operating Computerを使ってGoogle検索を自動化した様子をまとめた動画です。

一言指示を与えただけで、本当に自動で操作していますね！

日々のルーティンワークの負担を軽減したい方は、ぜひSelf-Operating Computerをお試しください！

※補足情報
2023年12月現在、Self-Operating Computer FrameworkはMacOSのみに対応しています。
また、利用にはOpenAI APIが必要です。

なお、Self-Operating Computerについてより詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Self-Operating Computer】人間に代わってAIがPCを操る！使い方〜実践まで

【Pika 1.0】自然言語から動画を自動で生成

「Pika 1.0」は、動画を自動で生成するAIツールです。

自然言語でプロンプトを入力するだけで、3秒間の動画が簡単に作成できます。

Introducing Pika 1.0, the idea-to-video platform that brings your creativity to life.

Create and edit your videos with AI.

Rolling out to new users on web and discord, starting today. Sign up at https://t.co/JHRrinsIwx pic.twitter.com/Rve3I2FzmK
— Pika (@pika_labs) November 28, 2023

またPika 1.0では、画像をアップロードし、その画像をベースにした動画の生成も可能です。例えば、アニメキャラクターの画像をアップロードし、そのキャラクターに動きをつけることもできます。

将来的には、Pika 1.0を活用することで誰でも短編映画が制作できるようになるかもしれませんね！

2023年12月現在、Pika 1.0は正式にリリースされておらず、残念ながらまだ利用できません。

しかしDiscordのチャンネルに参加すれば、Pika 1.0のサービスを体験できます。

※補足情報

Discord上でPika 1.0を利用する際は、下記のようにプロンプトを入力しましょう。

/create prompt: [プロンプト文]

以下は、食パンの上にバターが乗っている画像をアップロードし、「/create prompt: The butter on the bread melts.（パンの上のバターが溶ける）」と入力した出力結果です。

動きはやや小さいものの、ちゃんとバターが溶けていますね。

動画制作に興味がある方は、ぜひ一度Pika 1.0をお試しください！

なお、Pika 1.0についてより詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Pika 1.0】頭の中のアイデアを動画に！一瞬で高クオリティの動画を作れるAIツールを使ってみた

【LiveSketch】スケッチからアニメーションを自動で生成

「LiveSketch」は、スケッチからアニメーションを生成できるAIツールです。

簡単なスケッチを描き、自然言語で指示を与えるだけで、スケッチに動きを加えられます。

例えば以下は、ウマのスケッチを描き、「A galloping horse.（走るウマ）」と入力した場合の出力結果です。

スケッチのクオリティが多少雑でも、ウマが疾走する様子がきちんと表現できています。

もしLiveSketchをアニメ業界に導入できれば、アニメ制作に必要なイラストの枚数を減らすことができ、イラストレーターの負担を大幅に軽減できるかもしれませんね！

2023年12月現在、LiveSketchは正式にリリースされておらず、残念ながらまだ利用できません。

早くLiveSketchが使えるようになるといいですね！

なお、LiveSketchについてより詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【LiveSketch】AIの力で絵に命が宿る！AIでハリーポッターの世界が実現される

【flowty-realtime-lcm-canvas】スケッチから高品質イラストをリアルタイムで生成

「flowty-realtime-lcm-canvas」は、簡単なスケッチから高品質なイラストを、ほぼリアルタイムで生成できるAIツールです。

flowy-realtime-lcm-canvasのイラスト生成スピードが速いのは、LCMというモデルが搭載されているからです。

※LCM（Latent Consistency Models）とは？

画像生成の効率を大幅に向上させることで、高品質な画像を高速で生成できるAIモデル。
768×768ピクセルの高解像度画像を、わずか2〜4ステップで生成できる。

flowy-realtime-lcm-canvasを使えば、もうイラストを作成するのに特別なスキルは不要。必要なのは、最低限の画力だけです。

flowty-realtime-lcm-canvasは、オープンソース化されており誰でも無料で使えるので、イラスト制作に興味がある方はぜひ一度お試しください！

なお、flowty-realtime-lcm-canvasについてより詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【flowty-realtime-lcm-canvas】リアルタイムで書いた落書きを美しい絵に変えてくれるAIを使ってみた

【Animagine XL 2.0】テキストから超高品質アニメ画像を生成

「Animagine XL 2.0」は、テキストから超高品質アニメ画像を生成できるAIモデルです。こちらのモデルはStable Diffusion XL 1.0をベースに、高品質なアニメ画像を学習させて開発されました。

Animagine XL 2.0の使い方はシンプルで、プロンプトおよびネガティブプロンプトを入力するだけ。

ネガティブプロンプトについてよくわからない方は、下記をそのままコピペすればOKです。

▼ネガティブプロンプト（例）

lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry

プロンプトについては、下記のようにカンマで区切って入力しましょう。

▼プロンプト（例）

dramatic portrait (exquisite), (top-notch), (incredibly detailed), starry night, ethereal beauty, 1girl, solo, holding a lantern, forest, long flowing hair, luminous eyes, mystical gaze, elegant attire, vintage lantern, enchanted forest, moonlight, standing pose, softly glowing lantern light, illustration, flowing dress, intricate details, enchanting atmosphere, magical, surreal, high-resolution

たったこれだけで、以下のような超高品質なアニメ画像が生成できます！

Animagine XL 2.0はGradio Web UIにて、誰でも無料で利用可能です。

高品質なアニメ画像を作成してみたい方は、ぜひAnimagine XL 2.0をご活用ください！

なお、Animagine XL 2.0についてより詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【Animagine XL 2.0】解像度が高すぎるアニメ画像を生成できちゃうAIを使って推しの女の子を作ってみた

【SDXL Turbo】リアルタイムでテキストから画像を生成

「SDXL Turbo」は、リアルタイムでテキストから画像を生成できるAIモデルです。

Introducing SDXL Turbo: A real-time text-to-image generation model.

SDXL Turbo achieves state-of-the-art performance with a new distillation technology, enabling single-step image generation with unprecedented quality, reducing the required step count from 50 to just one.

The… pic.twitter.com/0NA4aUqKkD
— Stability AI (@StabilityAI) November 28, 2023

SDXL Turboの大きな特徴は、「敵対的拡散蒸留」と呼ばれる新技術を用いている点です。

※敵対的拡散蒸留（Adversarial Diffusion Distillation：ADD）とは？

画像の品質を高いレベルで維持しつつ、画像生成に必要なステップを効率化し、生成スピードを短縮させた技術のこと。

2023年12月現在、Clipdropにて、SDXL Turboのベータ版を誰でも無料で体験できます。

使い方も簡単で、ただプロンプトをテキストで入力するだけ。

以下は、実際にSDXL Turboを使用している様子です。

本当にプロンプトの内容に沿って、リアルタイムで画像が生成されていますね…

興味のある方は、ぜひ一度SDXL Turboを触ってみてください！

なお、SDXL Turboについてより詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【SDXL Turbo】Stability AIからリアルタイム画像生成AIが登場！性能を比較レビューしてみた

【neural-chat-7b-v3-1】7Bサイズの高性能モデル

「neural-chat-7b-v3-1」は、Intel社が開発したパラメータ数7BのAIモデルです。

ChatGPTに搭載されているGPT-3.5のパラメータ数は175B、GPT-4は1.5T（推定）なので、neural-chat-7b-v3-1のサイズが非常に小型であることがわかりますね。

しかしneural-chat-7b-v3-1の特徴は、ただサイズが小さいだけではありません。性能も非常に高く、文章生成や要約、コード生成など、さまざまなタスクで利用可能です。

ちなみにneural-chat-7b-v3-1がどれほど優れているのか、同規模サイズのLlama 2-7bと独自に比較した結果が以下のとおりです。

▼neural-chat-7b-v3-1とLlama2-7bの比較結果

比較項目	勝者	備考
日本語能力	neural-chat-7b-v3-1	neural-chat-7b-v3-1が出力する日本語はやや不自然
一般常識	引き分け	neural-chat-7b-v3-1は誤った情報を出力する可能性あり
コード生成	neural-chat-7b-v3-1	neural-chat-7b-v3-1は、ほぼカンペキなコードと丁寧な説明を出力
違法情報へのアクセス	Llama2-7b	どちらも違法情報の提供を拒否したが、Llama2-7bの方が根拠がより明確

ご覧のとおり、neural-chat-7b-v3-1の性能にはまだまだ課題はあるものの、Llama2-7bと同等以上のパフォーマンスを発揮することが見てとれますね。

neural-chat-7b-v3-1は、オープンソース化されており誰でも無料で使えます。（ただし大量のメモリを消費するため、Google Colabなどで実行する必要あり）

興味がある方はぜひ一度お試しください！

なお、neural-chat-7b-v3-1についてより詳しく知りたい方は、下記の記事を合わせてご確認ください。
→【neural-chat-7b】ついにIntelが70億サイズのLLMを無料公開！Llama 2と性能を比較してみた

まとめ

今回紹介したAIツールをまとめると、以下のとおりです。

ツール・モデル名	特徴	利用条件
Self-Operating Computer	自然言語で指示を与えると、マルチモーダルAIがマウス・キーボードを自動で操作し、指定タスクを実施する	・MacOSのみ対応・OpenAI APIが必要
Pika 1.0	自然言語でプロンプトを入力するだけで、3秒間の動画が自動で生成できる（画像のアップロードも可能）	まだ正式にリリースされていないため利用不可（Discordのチャンネルでサービスを体験可能）
LiveSketch	簡単なスケッチを描き、自然言語でプロンプトを入力するだけで、アニメーションが制作できる	まだ正式にリリースされていないため利用不可
flowty-realtime-lcm-canvas	簡単なスケッチを描くだけで、高品質なイラストをほぼリアルタイムで生成できる	無料で利用可能
Animagine XL 2.0	テキストから超高品質なアニメ画像を生成できる	無料で利用可能
SDXL Turbo	リアルタイムでテキストから画像を生成できる	無料で利用可能
neural-chat-7b-v3-1	7Bサイズの高性能モデルで、文章生成や要約、コード生成など、さまざまなタスクで利用できる	無料で利用可能

今回紹介したAIツールをうまく活用すれば、日常のさまざまなタスクを大幅に効率化できます。

もし興味のあるツールがあれば、ぜひ一度触ってみてください！

最後に

いかがだったでしょうか？

GPT-3.5 Turboの最新アップデートで、より高速かつ低コストでのAI活用が可能になりました。自社での導入・活用を検討する際に、最適なモデル選定や活用方法について、一緒に考えてみませんか？

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
・ハルシネーション対策AIツールの開発
・自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ