LFM2.5-8B-A1Bというモデルを見てみる

Artificial Intelligence

超高速に答えを返すモデル

LFM2.5-8B-1Aはそのモデル名を見てわかるように、総パラメータ数は8B(実際は8.5B)、アクティブパラメータは1B(実際は1.5B)のMoE(Mixture of Experts)モデルです。実はこの前身としてLFM2-8B-A1Bというモデルがあり、この時のモデルは最大コンテキスト長が32kでしたが、今回のLFM2.5-8B-A1Bでは128kに拡張されており、ローカルLLMとしてもかなり長いコンテキストに対応することができています。

この規模のモデルでMoEを採用するというのはあまりほかで見たことがありません。大体このぐらいのサイズのモデルは全結合型FFNを使うDenseモデルのほうが圧倒的に多いかと思います。

https://huggingface.co/LiquidAI/LFM2.5-8B-A1B

超高速の噂は疑いようもなく

速度は予想通りと言いますか、RTX-3050を使っても十分に高速でして、以下のような感じです。

prompt eval time =    1747.05 ms /  6077 tokens (    0.29 ms per token,  3478.44 tokens per second)
      eval time =   14334.81 ms /  1436 tokens (    9.98 ms per token,   100.18 tokens per second)

読み取り・出力共にかなり高速です。

割としっかりした内容を出力

そして特徴的だったのはそれにもかかわらず日本語が流暢に流せていることです。以下は、Agentを使用してGPT-5.4にレポートさせた内容をLFM2.5が要約した結果です。

ご案内
以下、TurboQuantについて分かりやすくまとめました。

要点
- 高次元ベクトルを少ないビットで高速圧縮しつつ、幾何構造を保つ量子化手法です。
- MSE と内積の両方を同時に最適化する 2 つのバリアントがあります。
- データに合わせた学習は不要で、オフラインでもオンラインでも使用できます。
- GPU や KV キャッシュ圧縮など、実務で即役立つ場面が期待できます。

TurboQuantmse の仕組み
- ベクトルをランダム回転し、各座標を独立に最適化します。
- 復元時は逆回転で元のベクトルに戻します。

TurboQuantprod の仕組み
- まず MSE 版で概ね近い値に圧縮します。
- 残差に対して 1bit の QJL(Quantized Johnson‑Lindenstrauss transform)を適用し、内積推定のバイアスを除去します。

注意点
- データセットごとの分布は事前に把握しておく必要があります。
- 低ビット(1〜4bit)では歪みや誤差が残りますが、理論限界に近い値を保ちます。
- インデックス作成には一定の前処理が必要ですが、実行時は高速です。
- 元のベクトルのノルムは別途保持し、復元時にスケーリングします。

参考
資料に基づく出典および参考文献は省略します。

一こと
実務でベクトル圧縮や KV キャッシュの最適化を検討する際は、TurboQuant が有力な選択肢の一つになるでしょう。

Gated Short Convolution Blockというブロックが鍵

LFM2.5-8B-A1Bというモデルでは、Gated Short Convolution Block (本記事ではGSCと略称する)という一風変わったブロックが24層構成のレイヤーのうち、実に18レイヤーで使用されており、残る6レイヤーでGQAが採用されています。

スライディングウィンドウを使用していることもあり、KVキャッシュ消費量も非常に少なく、私の環境ではUnslothがGGUF化したUD-Q4-K_XLモデル(5GB程度)を動かしてみても使用メモリ量が5.9GB程度ですんでいます(コンテキストサイズは128kフルにしています)

このアーキテクチャについて、下記LFM2 Technical Reportの第2.1項、アーキテクチャ最適化プロセスにて述べられています。

https://arxiv.org/html/2511.23404v1

このモデルは見てわかる通り速度重視で設計されていて、その目標はエッジファーストです。
そして、タスクとしてみているターゲットは下流タスクであり、例えば複数モデルを用いたエージェント構成ですとRefiner(詳細レポートをもとにしてその概要記述を要約・整理する係)と言えます。

局所文脈および準二次ブロック:

カーネルサイズ可変のゲート付き短時間畳み込みブロック、スライディングウィンドウ注意機構、線形注意変種を含む準二次系列ブロックファミリー、Liquid-S4、S5、RTF、Mamba、Mamba2などの状態空間変種、CfCなどの液体時間定常ネットワーク、および効率的な系列ブロックの内部変種。

これらのブロックは通常、深さ方向短時間畳み込みとより長距離の線形注意/SSMコンポーネントを組み合わせた構造を持つ。

探索空間には、短時間畳み込みサブモジュールのみを保持する変種(すなわちゲート付き短時間畳み込みブロック)や、完全なハイブリッド演算子を保持する変種も含まれる。

これにより、探索過程で性能向上が特定の計算ユニットに起因するものかどうかを判断できる。

線形注意およびSSM変種は入力のグローバル処理が可能であるが、検索集約型タスクにおける制約を考慮すると、局所文脈ブロックと同クラスに分類される。

このニューラルネットワークは、SSM(状態空間モデル)に着想を得ていて、その中の素子を簡略化したものがGated Short Convolution Blockとなります。日本語で訳されると「ゲート付き短時間畳み込みブロック」です。

例えば、文章を読むとき、私たちは「すぐ隣にある2〜3個の単語」を無意識につなげて意味を理解しています(「赤い」「リンゴ」など)が、Gated Short Convolutionは、このような「すぐ近くの言葉同士のつながり」を専門に処理する仕組みです。
さらに「ゲート(Gated)」というフィルター機能が付いており、今必要な情報だけをスマートに選別します。近くだけを見るので計算が非常に軽く、作業スピードがとても速いのが特徴です。LiquidAIはこの作用に着目したのだろうと思われ。

Transformer系モデルにおいて、Attention機構こそ最も計算量が多く、ボトルネックになりがちだといわれていますが、GSCでは計算オーダーがわずかO(n)ですみ、高速な処理を実現しつつ、少ないGQAでもしっかり動けるモデルに仕上げたのだろうと考えられます。(Attention機構はGQAもO(n^2))

MoEはGQAを通過した後で発動

さらに、GSCを使用しているブロックにおいて、最初の第0層、第1層は他の層と異なりMoEを採用していません。

そもそもMoEは前段にどのExpertsが適しているかを判断するRouter的な層が存在し、文脈から適切なExpertsを決められた数だけ選別します。しかし、入力直後ではAttention機構を通過してないゆえにGSCで粗々に整理された状態でデータが運び込まれてきます。この状態でMoEへ運んでしまうとまず、そのExperts選別でオーバーヘッドが発生するだけでなく、その選別結果も不確かなものになってしまいます。

そこで、前段の2層についてはパラメータ情報を総なめするDenseを通過させ、洗練度を向上させる仕組みになっています。それ以降の22層ではすべてにおいてMoEが配置されています。MoEでは、32個のExpertsから4つを選定する仕組みになっています。

これまで紹介した形態では、FFNは大体1通りに構成されたものが多く、DenseとMoEを組み合わせた構成は今のところ私が見た中では初めてなんじゃないかなーという気がします。しかし、中身はしっかり練りこまれていますね。

Agent的な動きは苦手そう

ちょっとその光景をお見せすることはできなかったですが、エージェントとして動かすことは苦手なようで、Dify Agent Strategyを使ってみたところ、どんなにツールを使わせようとしても使ってくれず、常に自己判断(Thought)で解を決め打ちして出力する傾向がありました。あくまで下流タスクを対応させるという意味で動かすのが賢明そうです。

その中でも長い文章を書くのはあまり得意ではないようで、要点をかいつまんで箇条書きにするスタイルが根付いてるようにも見えましたので、用途で使い分ける一つの選択肢としてみてあげるとよいのかもしれません。文章のまとめ役「簡潔版」みたいな扱いをしてあげると、爆速でこなしてくれる筆頭モデルともいえるのではないでしょうか。

完全フリーではないよ

LiquidAIのモデルには、独自のライセンス体系があります。

プライバシーポリシー | Liquid AI
Liquid AI のプライバシーポリシー:データセキュリティ、お客様の権利、アカウント管理について学んでください。

基本的なライセンス構成はApache2.0に準拠しており、商用利用も可能と言えば可能ですが、「会社の年間収益が1,000万米ドルを超えると、このモデルを商業目的で使用する権利は失われます。」とあるように、企業年間収益がこれを超えた場合は有償となります。使用する企業によって左右されるところもありますので、採用の際は気を付けましょう。

参考

LFM2-8B-A1B:効率的なオンデバイスMixture-of-Experts(MoE) | Liquid AI
合計83億パラメータを持ち、トークンごとに15億のアクティブパラメータを使用する、初のオンデバイスMixture-of-Experts(MoE)モデル「LFM2-8B-A1B」を公開します。推論時にスパースなパラメータのみを活性化することで…

コメント

タイトルとURLをコピーしました