音声・テキスト・画像・音楽など複数の種類のデータを一度に処理できるマルチモーダルな大規模言語モデル(LLM)の「AnyGPT」が発表されました。 既存の大規模言語モデル(LLM)のアーキテクチャやトレーニングパラダイムを変更することなく、安定して ...
Googleは10日(米国時間)、マルチモーダル対応の埋め込みモデル「Gemini Embedding 2」を発表し、Gemini APIおよびVertex AIを通じてパブリックプレビューで提供開始した。テキスト、画像、動画、音声、ドキュメントを単一の埋め込み空間にマッピングし、異なる種類のメディアを横断した検索や分類に対応する。
米Microsoftは2月26日(現地時間)、小規模言語モデル(SLM)である「Phi」ファミリーに「Phi-4-multimodal」「Phi-4-mini」が加わったと発表した。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用可能。 小規模言語モデル(Small Language Model:SLM)は ...
米OpenAIが5月に発表した生成AIモデル「GPT-4o」。テキストだけでなく音声や画像も扱えるマルチモーダルモデルとして、その特徴が注目を集めている。ChatGPTでは、GPT-4oの性能を生かした「高度な音声モード」も提供予定(6月25日に延期を発表)で、感情や非 ...
マルチモーダルRAGとは、通常のRAGと何が違うのか? 企業データの90%が非構造化データであり、その80%以上が画像、動画 ...
現地時間の2025年11月12日、スタンフォード人工知能研究所で所長を務めたコンピューターサイエンスの権威であるフェイフェイ・リ氏らが立ち上げたAI企業のWorld Labsが、独自のマルチモーダルワールドモデル「Marble」を発表しました。 空間知能はAIの新たな ...
メタデータ株式会社(所在地:東京都文京区、代表取締役社長:野村直之)は、高精度RAG(検索拡張生成)製品「ChatBrid」において、画像・図表・グラフ・イラストなどの非テキスト情報を統合的に理解・検索して回答を生成できる「マルチモーダル対応 ...
パナソニック ホールディングス株式会社(以下、パナソニックHD)およびパナソニックR&Dカンパニーオブアメリカは、カリフォルニア大学ロサンゼルス校の研究者らと共同で、テキスト、画像、音といった異なるデータ形式を自由に相互変換できる(以下 ...
アクロクエストテクノロジー株式会社(本社:神奈川県横浜市・代表取締役:新免流、以下、アクロクエスト)は、テキストでも画像でも、もしくは、その両方合わせてでも検索可能な、次世代の検索を実現する「マルチモーダル検索ソリューション」の ...
テキスト、画像、音声、動画など異なる種類のデータを一度に扱える「マルチモーダルAI」と呼ばれる技術のニーズが近年特に高まっています。従来のAIでは実現できなかった複雑な課題の解決や、業務の効率化を後押しする「具体的な成果」が認められる ...
マルチモーダルAIとは、異なる種類の情報をまとめて扱うAIのことです。例えば、カメラで撮影した映像とマイクで録音した音という異なる種類の情報から1つのAIを学習させることで、映像の中に写っている人が何を話しているのかをより正確に推定できます。
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する