米Microsoftは2月26日(現地時間)、小規模言語モデル(SLM)である「Phi」ファミリーに「Phi-4-multimodal」「Phi-4-mini」が加わったと発表した。現在、「Azure AI Foundry」、「HuggingFace」、「NVIDIA API Catalog」で利用可能。 小規模言語モデル(Small Language Model:SLM)は ...
Google has launched Gemini Embedding 2, its first fully multimodal embedding model based on the Gemini system. This model ...
AI開発企業のOpenAIが、Moderation APIに新しいマルチモーダルモデレーションモデルを導入しました。このマルチモーダルモデレーションモデルはGPT-4oをベースとしており、テキストと画像の両方の入力をサポート。特に、英語以外の言語で以前のモデルよりも ...
アクロクエストテクノロジー株式会社(本社:神奈川県横浜市・代表取締役:新免流、以下、アクロクエスト)は、テキストでも画像でも、もしくは、その両方合わせてでも検索可能な、次世代の検索を実現する「マルチモーダル検索ソリューション」の ...
5月といえば、スター・ウォーズとゴールデンウィーク。しかし、今年の5月はSWよりもGWよりも、AIな月となりました。OpenAIとGoogle(グーグル)が、次々と大きなAI関連の発表を行なったからです。 近年、テック大手はAIモデルの開発に注力し、より賢く、より ...
――142億パラメータを持つ日本語に特化した視覚言語モデル―― 【発表のポイント】 142億パラメータを持つオープンな日本語に特化したマルチモーダルモデルを開発しました。構築されたモデルは、出力の利用が制限されている大規模言語モデル(chatGPT ...
米OpenAIが5月に発表した生成AIモデル「GPT-4o」。テキストだけでなく音声や画像も扱えるマルチモーダルモデルとして、その特徴が注目を集めている。ChatGPTでは、GPT-4oの性能を生かした「高度な音声モード」も提供予定(6月25日に延期を発表)で、感情や非 ...
Phi-4-reasoning-vision-15Bの特徴は、画像とテキストを同時に扱い、視覚情報を伴う複雑な問題を段階的に推論して解く能力を備えている点だ。視覚情報に対する効率的な推論を実現するために、Phi-4-reasoning-vision-15Bでは視覚エンコーダが画像を視覚トークンへ変換 ...
Google Gemini Embedding 2 unifies text, images, audio, PDFs, and video; it supports 3,072-dimension vectors, simplifying retrieval stacks.
──マルチモーダル用のニューラルネットがあるというよりも、テキスト用のニューラルネットに音声や画像も入力しているという感じなんですね。GPT-4oを含む現在のマルチモーダルLLMの限界と、今後の発展の方向性について教えてください 椎橋:現在のGPT ...
Facebook、Instagram、WhatsApp、Oculus VR の親会社 Meta Platformsからのニュースだ。新音声クローン AI「Audiobox」のリリースに続き、同社は今週、アイウェアの代表的企業 Ray Banとの提携により、Ray Ban Meta スマートグラス上で動作するように設計された新しい ...