Multimodal Example - 検索 News

Microsoft、小規模言語モデル「Phi-4-multimodal」「Phi-4-mini」を発表

米Microsoftは2月26日（現地時間）、小規模言語モデル（SLM）である「Phi」ファミリーに「Phi-4-multimodal」「Phi-4-mini」が加わったと発表した。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用可能。小規模言語モデル（Small Language Model：SLM）は ...

NDTV Profit

What Is Gemini Embedding 2 — Google's First Multimodal AI Model That Maps Text, Images ...

Google has launched Gemini Embedding 2, its first fully multimodal embedding model based on the Gemini system. This model ...

GIGAZINE

OpenAIがGPT-4oベースの有害なテキストや画像を検出できる新しい ...

AI開発企業のOpenAIが、Moderation APIに新しいマルチモーダルモデレーションモデルを導入しました。このマルチモーダルモデレーションモデルはGPT-4oをベースとしており、テキストと画像の両方の入力をサポート。特に、英語以外の言語で以前のモデルよりも ...

PR TIMES

テキストでも画像でもすぐに探せる、生成AIを活用した ...

アクロクエストテクノロジー株式会社（本社：神奈川県横浜市・代表取締役：新免流、以下、アクロクエスト）は、テキストでも画像でも、もしくは、その両方合わせてでも検索可能な、次世代の検索を実現する「マルチモーダル検索ソリューション」の ...

ギズモード・ジャパン

AIの｢マルチモーダル｣ってなんだろう？グーグルやOpenAIが大騒ぎ ...

5月といえば、スター・ウォーズとゴールデンウィーク。しかし、今年の5月はSWよりもGWよりも、AIな月となりました。OpenAIとGoogle（グーグル）が、次々と大きなAI関連の発表を行なったからです。近年、テック大手はAIモデルの開発に注力し、より賢く、より ...

日本経済新聞

東大、オープンな日本語マルチモーダルモデルを開発

――142億パラメータを持つ日本語に特化した視覚言語モデル―― 【発表のポイント】 142億パラメータを持つオープンな日本語に特化したマルチモーダルモデルを開発しました。構築されたモデルは、出力の利用が制限されている大規模言語モデル（chatGPT ...

ITmedia

「GPT-4o」は何がすごい？なぜLLMは画像や音声も扱えるの ...

米OpenAIが5月に発表した生成AIモデル「GPT-4o」。テキストだけでなく音声や画像も扱えるマルチモーダルモデルとして、その特徴が注目を集めている。ChatGPTでは、GPT-4oの性能を生かした「高度な音声モード」も提供予定（6月25日に延期を発表）で、感情や非 ...

マイナビニュース

Phi-4-reasoning-vision-15Bの特徴 - 効率よいマルチモーダル推論を実現

Phi-4-reasoning-vision-15Bの特徴は、画像とテキストを同時に扱い、視覚情報を伴う複雑な問題を段階的に推論して解く能力を備えている点だ。視覚情報に対する効率的な推論を実現するために、Phi-4-reasoning-vision-15Bでは視覚エンコーダが画像を視覚トークンへ変換 ...

9 日

Google Gemini Embedding 2 Supports Text, Images, Audio, PDFs & Short Videos

Google Gemini Embedding 2 unifies text, images, audio, PDFs, and video; it supports 3,072-dimension vectors, simplifying retrieval stacks.

ITmedia

「GPT-4o」は何がすごい？なぜLLMは画像や音声も扱えるの ...

──マルチモーダル用のニューラルネットがあるというよりも、テキスト用のニューラルネットに音声や画像も入力しているという感じなんですね。GPT-4oを含む現在のマルチモーダルLLMの限界と、今後の発展の方向性について教えてください椎橋：現在のGPT ...

BRIDGE

Meta、「GPT-4V」に匹敵するマルチモーダルAIをレイバンのスマート ...

Facebook、Instagram、WhatsApp、Oculus VR の親会社 Meta Platformsからのニュースだ。新音声クローン AI「Audiobox」のリリースに続き、同社は今週、アイウェアの代表的企業 Ray Banとの提携により、Ray Ban Meta スマートグラス上で動作するように設計された新しい ...

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する

Microsoft、小規模言語モデル「Phi-4-multimodal」「Phi-4-mini」を発表

What Is Gemini Embedding 2 — Google's First Multimodal AI Model That Maps Text, Images ...

OpenAIがGPT-4oベースの有害なテキストや画像を検出できる新しい ...

テキストでも画像でもすぐに探せる、生成AIを活用した ...

AIの｢マルチモーダル｣ってなんだろう？ グーグルやOpenAIが大騒ぎ ...

東大、オープンな日本語マルチモーダルモデルを開発

「GPT-4o」は何がすごい？ なぜLLMは画像や音声も扱えるの ...

Phi-4-reasoning-vision-15Bの特徴 - 効率よいマルチモーダル推論を実現

Google Gemini Embedding 2 Supports Text, Images, Audio, PDFs & Short Videos

「GPT-4o」は何がすごい？ なぜLLMは画像や音声も扱えるの ...

Meta、「GPT-4V」に匹敵するマルチモーダルAIをレイバンのスマート ...

AIの｢マルチモーダル｣ってなんだろう？グーグルやOpenAIが大騒ぎ ...

「GPT-4o」は何がすごい？なぜLLMは画像や音声も扱えるの ...

「GPT-4o」は何がすごい？なぜLLMは画像や音声も扱えるの ...