performance

Artificial Intelligence

llama.cppにおけるKVキャッシュ量子化について

KVキャッシュ量子化を軽々しく使うとつらい目に遭ったというタイトルで始めたんですけど、気づきは本当に偶然です。GPUSOROBANのインスタンスでllama.cppとLiteLLM連携の検証をしたときに気づいた話です。KVキャッシュというも...
Artificial Intelligence

メモリの帯域は馬鹿にならない

ローカルLLMを動かすときの重要なカギ:メモリ帯域ローカルLLMやSLMを使用するとき、皆さんはどういうグラフィックボードを使用されるのでしょう?大体は安価な製品なちょい古めの・・そう、例えばRTX3060-12GBみたいなものを使って動か...
Artificial Intelligence

Gemma4-E2Bの動きを再度見る(CPU編)

以前「Gemma-4がでた」という記事を書いたんですが、この時VMに対して割り当てるCPU数を2に制約してたので、今回このCPU数を3に増やしてちょっと実行してみました。再推論したらこの通り、300%近傍まで負荷を上昇させることができました...