transformer

Artificial Intelligence

LFM2.5-8B-A1Bというモデルを見てみる

超高速に答えを返すモデルLFM2.5-8B-1Aはそのモデル名を見てわかるように、総パラメータ数は8B(実際は8.5B)、アクティブパラメータは1B(実際は1.5B)のMoE(Mixture of Experts)モデルです。実はこの前身と...
Artificial Intelligence

ガチでスクラッチから作ってみたいそんなあなたに

今、X.com上でこんなリポジトリが盛り上がってます。これ、何が入ってるかと言いますと、スクラッチでTransformerを使用したLLMを事前学習から始めるためのキットが詰まっています。全体構成全体構成は以下のようになっています。trai...
Artificial Intelligence

モデルの構造をも少し細かく覗く

再掲:Qwen3.5-Denseモデルを例に以下は、Qwen3.5モデルの1例をとってその構造を描いてみたのですが、実際のところどういう風にソースなどでは表現されているのでしょうか?Qwen3.5-2Bのニューラルネットワークソースで見たい...
Artificial Intelligence

延々と「ちょまてよ!」を繰り返すQwen3.5

今日、半分試運転の意味でllama.cppを自宅マシンに突っ込みまして。そしてQwen3.5-2Bモデルをぶち込んでみました。ざっくり速度評価:正直奇跡だと思った今回の場合、大体トークン処理速度は 6 toks/s なので決して遅くはないで...