マルチモーダル– tax –
-
Mistral AIの「Pixtral 12B」「Pixtral Large」とは?手書きから複雑データまで対応するマルチモーダルAI
-
【Metaが公開したSpirit LM】音声とテキストを融合したマルチモーダルAIを解説
-
【kotaemon】洗練されたUIのオープンRAGシステム!論文PDFをアップロードして分かりやすく解説させてみた
-
【Qwen2-Vl】Alibaba Cloudの視覚言語モデルを使って超有名漫画の1コマ解析してみた!
-
【Phi 3.5】スマホで動くMicrosoftの最新LLMの性能をGPT-4oと徹底比較してみた
-
【Llama-3-EvoVLM-JP-v2】SakanaAI発の複数の画像対応VLMに様々な食材画像を読ませてレシピ考えさせてみた
-
【MiniCPM-V 2.6】未来予測ができるGPT-4V超えの生成AIで、メッシのスーパープレーをガチ分析してみた
-
【MiniCPM-Llama3-V 2.5】たった8BでGPT-4o超えのVLM
-
【Gemini 1.5 Flash】Geminiシリーズ最速のマルチモーダルLLM