シフト・加算で革新的LLM高速化
大規模言語モデル(LLM)は、パラメータが多く、密な乗算演算に依存するため、メモリ使用量が大きく、レイテンシーが高くなる課題があった。
- LLMの課題を解決する革新的手法
- 重み行列の2値化と多目的最適化
- 実験で高速化と消費削減を実現
この問題を解決するため、研究者らは「ShiftAddLLM」と呼ばれる革新的な手法を開発した。
この手法では、従来の乗算演算を、ハードウェアに優しいシフト演算と加算演算に置き換えることで、LLMの効率を大幅に向上させることに成功。
具体的には、重み行列を2値化し、グループごとのスケーリング係数とペアにし、乗算をシフト演算と加算演算に置き換える。
この際、重みと出力活性化の再パラメータ化誤差を最小化するための多目的最適化手法を採用し、精度の低下を防いだ。
さらに、層ごとの再パラメータ化への感度に基づいてビット幅を自動的に割り当てることで、メモリ使用量とレイテンシーを大幅に削減。
実験では、ShiftAddLLMが既存の量子化LLMと比較して、同等またはそれ以下のレイテンシーで、パープレキシティスコアの改善と80%を超えるメモリ・エネルギー消費の削減を実現した。
「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、朝の通勤時間に読めるメルマガを配信しています。
最新のAI情報を日本最速で受け取りたい方は、以下からご登録ください。
また、弊社紹介資料もご用意しておりますので、併せてご確認ください。