KVキャッシュ

Artificial Intelligence

Dify/llama.cppの利用は盲目的にはできない件

llama.cppの心得:同時接続数に気を付けようEmbeddingモデルを使う際、私はローカルSLMをよく利用します。理由は「レイテンシーが低いから」の1点に尽きます。API型LLMで実行する場合に比べて恐ろしく処理が速くなるんですね。ま...
Artificial Intelligence

llama.cppにおけるKVキャッシュ量子化について

KVキャッシュ量子化を軽々しく使うとつらい目に遭ったというタイトルで始めたんですけど、気づきは本当に偶然です。GPUSOROBANのインスタンスでllama.cppとLiteLLM連携の検証をしたときに気づいた話です。KVキャッシュというも...
Artificial Intelligence

KVキャッシュとは

先の投稿でKVキャッシュの容量について話題を出したので、これを掘り下げて解説することにしました。トランスフォーマー型LLM/SLMにおける基本的な動き基本的にこの手のLLM/SLMはこんな動きをしてる。AIモデルは、特にBi-Directi...