KVキャッシュ

Dify/llama.cppの利用は盲目的にはできない件

llama.cppの心得：同時接続数に気を付けようEmbeddingモデルを使う際、私はローカルSLMをよく利用します。理由は「レイテンシーが低いから」の1点に尽きます。API型LLMで実行する場合に比べて恐ろしく処理が速くなるんですね。ま...

Artificial Intelligence日々徒然昔取った杵柄

アーキテクチャの違いで何が変わるのか？

アーキテクチャの違いで言語モデルの動きに差が出るのか？というところがなかなかピンとこないことがあります。特にDeepLearningモデルの領域では、ことあるごとに新しい仕組みが生まれては世代が変わり、それが学習の差によって出るものなのか、...

Artificial Intelligence

llama.cppにおけるKVキャッシュ量子化について

KVキャッシュ量子化を軽々しく使うとつらい目に遭ったというタイトルで始めたんですけど、気づきは本当に偶然です。GPUSOROBANのインスタンスでllama.cppとLiteLLM連携の検証をしたときに気づいた話です。KVキャッシュというも...

Artificial IntelligenceHardware昔取った杵柄

KVキャッシュとは

先の投稿でKVキャッシュの容量について話題を出したので、これを掘り下げて解説することにしました。トランスフォーマー型LLM/SLMにおける基本的な動き基本的にこの手のLLM/SLMはこんな動きをしてる。AIモデルは、特にBi-Directi...

Artificial Intelligence昔取った杵柄