グーグルは米国時間2026年3月24日、AIのアテンション計算をエヌビディア製H100 GPU上で最大8倍に高速化しながら、同時にメモリー消費を最大6分の1に削減する圧縮アルゴリズム「TurboQuant」を発表した。精度の劣化はゼロだ。同社はすでにGeminiへの適用を主要ユースケースとして明示しており、単なる研究成果にとどまらない実装レベルの技術として位置づけている。 背景として知っておくべき ...
一部の結果でアクセス不可の可能性があるため、非表示になっています。
アクセス不可の結果を表示する