量子化

Artificial Intelligence

Dify/llama.cppの利用は盲目的にはできない件

llama.cppの心得:同時接続数に気を付けようEmbeddingモデルを使う際、私はローカルSLMをよく利用します。理由は「レイテンシーが低いから」の1点に尽きます。API型LLMで実行する場合に比べて恐ろしく処理が速くなるんですね。ま...
Artificial Intelligence

llama.cppにおけるKVキャッシュ量子化について

KVキャッシュ量子化を軽々しく使うとつらい目に遭ったというタイトルで始めたんですけど、気づきは本当に偶然です。GPUSOROBANのインスタンスでllama.cppとLiteLLM連携の検証をしたときに気づいた話です。KVキャッシュというも...
Artificial Intelligence

メモリの帯域は馬鹿にならない

ローカルLLMを動かすときの重要なカギ:メモリ帯域ローカルLLMやSLMを使用するとき、皆さんはどういうグラフィックボードを使用されるのでしょう?大体は安価な製品なちょい古めの・・そう、例えばRTX3060-12GBみたいなものを使って動か...