量子化

Dify/llama.cppの利用は盲目的にはできない件

llama.cppの心得：同時接続数に気を付けようEmbeddingモデルを使う際、私はローカルSLMをよく利用します。理由は「レイテンシーが低いから」の1点に尽きます。API型LLMで実行する場合に比べて恐ろしく処理が速くなるんですね。ま...

Artificial Intelligence日々徒然昔取った杵柄

アーキテクチャの違いで何が変わるのか？

アーキテクチャの違いで言語モデルの動きに差が出るのか？というところがなかなかピンとこないことがあります。特にDeepLearningモデルの領域では、ことあるごとに新しい仕組みが生まれては世代が変わり、それが学習の差によって出るものなのか、...

Artificial Intelligence

llama.cppにおけるKVキャッシュ量子化について

KVキャッシュ量子化を軽々しく使うとつらい目に遭ったというタイトルで始めたんですけど、気づきは本当に偶然です。GPUSOROBANのインスタンスでllama.cppとLiteLLM連携の検証をしたときに気づいた話です。KVキャッシュというも...

Artificial IntelligenceHardware昔取った杵柄

メモリの帯域は馬鹿にならない

ローカルLLMを動かすときの重要なカギ：メモリ帯域ローカルLLMやSLMを使用するとき、皆さんはどういうグラフィックボードを使用されるのでしょう？大体は安価な製品なちょい古めの・・そう、例えばRTX3060-12GBみたいなものを使って動か...

Artificial IntelligenceHardware昔取った杵柄