マルチモーダル– tax –
-
【kotaemon】洗練されたUIのオープンRAGシステム!論文PDFをアップロードして分かりやすく解説させてみた
-
【Qwen2-Vl】Alibaba Cloudの視覚言語モデルを使って超有名漫画の1コマ解析してみた!
-
【Phi 3.5】スマホで動くMicrosoftの最新LLMの性能をGPT-4oと徹底比較してみた
-
【Llama-3-EvoVLM-JP-v2】SakanaAI発の複数の画像対応VLMに様々な食材画像を読ませてレシピ考えさせてみた
-
【MiniCPM-V 2.6】未来予測ができるGPT-4V超えの生成AIで、メッシのスーパープレーをガチ分析してみた
-
【MiniCPM-Llama3-V 2.5】たった8BでGPT-4o超えのVLM
-
【Gemini 1.5 Flash】Geminiシリーズ最速のマルチモーダルLLM
-
【CLAP】音声検索や高度な音声分類!音声ならこのAIのみで十分すぎる最強ツールを使ってみた
-
【GPT-4V】ChatGPTが画像入力と音声入力に対応!使い方〜実践まで徹底解説