GPU

override-tensorで、指定した層だけをCPUにオフロードする手法

うちのブログをご覧になってくださる人からフィードバックが！なかなか書きっぱなしでフィードバックが返ってこない私のこのブログなんですけれども、有難いことにX.comでディープラーニングモデルのことを色々リサーチなさってるきしださん(が当ブログ...

Artificial Intelligence昔取った杵柄

ZABBIXでNVIDIA-GPUを監視する際の注意事項

ZABBIXでは、NVIDIA-GPUを監視することが可能なのは会社員時代からよく理解しているんですが、そのプラグインの設定がUbuntu側の仕様に沿ってないらしいので備忘録として掲示します。参考URLは以下の通りです。本記事で記述している...

Hardware昔取った杵柄

Dify/llama.cppの利用は盲目的にはできない件

llama.cppの心得：同時接続数に気を付けようEmbeddingモデルを使う際、私はローカルSLMをよく利用します。理由は「レイテンシーが低いから」の1点に尽きます。API型LLMで実行する場合に比べて恐ろしく処理が速くなるんですね。ま...

Artificial Intelligence日々徒然昔取った杵柄

CPUを交換したよ

本日CPUを交換しました。左は既存であったIntel Xeon E5-1630v3、右は新しく載せ替えたIntel Xeon E5-2690v4です。ヤフオク！さんにて、なんと5,000円でXeon E5-2690v4を購入しました。新品当...

Hardware日々徒然昔取った杵柄

RTX3050で何ができるか？

安価なGPUでできることを模索してみる昨今Xを眺めていると、えらく高価なGPUでローカルLLMをぶん回してる話題がたくさん飛び交ってます。やれ、DGX-Spark(当初60万→現在100万ぐらい？)だの、RTX5080(20万円前後)だの、...

Artificial IntelligenceHardware昔取った杵柄

環境構築：CUDA入れていきましょ

とりあえずはCUDA導入に必要なことGPUはそろえたんで、次はそれを認識するための導入手順を抑えときましょということで書いています。必要な手順、実はここにだいたい書かれています。ほかのプラットフォーム・OSに関する情報もありますので、参考に...

Artificial Intelligence昔取った杵柄

環境構築:古いワークステーション仕入れました

PRIMERGY TX140S1には荷が重すぎたため、ひとまずつなぎとしてワークステーションを一台追加することにしました。今回追加したのは往年の名機（？）HP Z440です。本体メモリは8GBのECC Registered DDR4メモリを...

Artificial IntelligenceHardware昔取った杵柄

アーキテクチャの違いで何が変わるのか？

アーキテクチャの違いで言語モデルの動きに差が出るのか？というところがなかなかピンとこないことがあります。特にDeepLearningモデルの領域では、ことあるごとに新しい仕組みが生まれては世代が変わり、それが学習の差によって出るものなのか、...

Artificial Intelligence

llama.cppにおけるKVキャッシュ量子化について

KVキャッシュ量子化を軽々しく使うとつらい目に遭ったというタイトルで始めたんですけど、気づきは本当に偶然です。GPUSOROBANのインスタンスでllama.cppとLiteLLM連携の検証をしたときに気づいた話です。KVキャッシュというも...

Artificial IntelligenceHardware昔取った杵柄

コンテナ内部でsystemctlみたいなことをしたい

以前紹介した GPUSOROBAN ですが、コンテナを払い出すサービスとして紹介をしました。それ故に通常のVMではできることができないポイントなんかあったりします。例えば systemctl が使えません。これを使うためにホスト側でいじる内...

昔取った杵柄

次のページ

1 2