Multimodal Text Types

音声・テキスト・画像・音楽の入出力に対応したマルチモーダル大 ...

音声・テキスト・画像・音楽など複数の種類のデータを一度に処理できるマルチモーダルな大規模言語モデル(LLM)の「AnyGPT」が発表されました。既存の大規模言語モデル(LLM)のアーキテクチャやトレーニングパラダイムを変更することなく、安定して ...

10 日

グーグル、埋め込みモデル「Gemini Embedding 2」マルチモーダル対応

Googleは10日(米国時間)、マルチモーダル対応の埋め込みモデル「Gemini Embedding 2」を発表し、Gemini APIおよびVertex AIを通じてパブリックプレビューで提供開始した。テキスト、画像、動画、音声、ドキュメントを単一の埋め込み空間にマッピングし、異なる種類のメディアを横断した検索や分類に対応する。

窓の杜

Microsoft、小規模言語モデル「Phi-4-multimodal」「Phi-4-mini」を発表

米Microsoftは2月26日（現地時間）、小規模言語モデル（SLM）である「Phi」ファミリーに「Phi-4-multimodal」「Phi-4-mini」が加わったと発表した。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用可能。小規模言語モデル（Small Language Model：SLM）は ...

ITmedia

「GPT-4o」は何がすごい？なぜLLMは画像や音声も扱えるの ...

米OpenAIが5月に発表した生成AIモデル「GPT-4o」。テキストだけでなく音声や画像も扱えるマルチモーダルモデルとして、その特徴が注目を集めている。ChatGPTでは、GPT-4oの性能を生かした「高度な音声モード」も提供予定（6月25日に延期を発表）で、感情や非 ...

Excite エキサイト

テキストだけでなく画像や音声なども処理するマルチモーダルRAG ...

マルチモーダルRAGとは、通常のRAGと何が違うのか？企業データの90%が非構造化データであり、その80%以上が画像、動画 ...

GIGAZINE

テキスト・画像・動画から3Dワールドを生成するマルチモーダル ...

現地時間の2025年11月12日、スタンフォード人工知能研究所で所長を務めたコンピューターサイエンスの権威であるフェイフェイ・リ氏らが立ち上げたAI企業のWorld Labsが、独自のマルチモーダルワールドモデル「Marble」を発表しました。空間知能はAIの新たな ...

CNET

生成AI×ナレッジマネジメントの次世代基盤 ChatBrid、画像・図表・UI ...

メタデータ株式会社（所在地：東京都文京区、代表取締役社長：野村直之）は、高精度RAG（検索拡張生成）製品「ChatBrid」において、画像・図表・グラフ・イラストなどの非テキスト情報を統合的に理解・検索して回答を生成できる「マルチモーダル対応 ...

PR TIMES

パナソニックHD、テキスト、画像、音を相互に変換可能な ...

パナソニックホールディングス株式会社（以下、パナソニックHD）およびパナソニックR＆Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる（以下 ...

PR TIMES

テキストでも画像でもすぐに探せる、生成AIを活用した ...

アクロクエストテクノロジー株式会社（本社：神奈川県横浜市・代表取締役：新免流、以下、アクロクエスト）は、テキストでも画像でも、もしくは、その両方合わせてでも検索可能な、次世代の検索を実現する「マルチモーダル検索ソリューション」の ...

ITmedia

マルチモーダルAIとは？最新技術と活用シーンをわかりやすく解説

テキスト、画像、音声、動画など異なる種類のデータを一度に扱える「マルチモーダルAI」と呼ばれる技術のニーズが近年特に高まっています。従来のAIでは実現できなかった複雑な課題の解決や、業務の効率化を後押しする「具体的な成果」が認められる ...

産業技術総合研究所

マルチモーダルAIとは？

マルチモーダルAIとは、異なる種類の情報をまとめて扱うAIのことです。例えば、カメラで撮影した映像とマイクで録音した音という異なる種類の情報から1つのAIを学習させることで、映像の中に写っている人が何を話しているのかをより正確に推定できます。

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する