Last Update 2026/02/19
低スペック寄りのPCでローカルLLMを動作させた際の記録です。
LLM以外の仮想マシンなどが起動され、多少負荷がかかった状態で実行しています。
ベンチマークなどでLLMの性能を評価する内容ではありません。
LLM以外の仮想マシンなどが起動され、多少負荷がかかった状態で実行しています。
ベンチマークなどでLLMの性能を評価する内容ではありません。
検証用PC
|
OS |
Debian GNU/Linux 12 (bookworm) |
|
CPU |
Intel(R) Core(TM) i5-14400F |
|
GPU |
GeForce RTX 3060 12GB |
|
メモリ |
DDR4 PC4-25600 32GB × 4 |
|
SSD |
crucial P310 CT1000P310SSD8-JP |
構築環境 : Docker + Ollama (特別な設定などは無い状態)
検証用プロンプト
おすすめの日本の絶景を教えてください。東西南北、10箇所程度、日本語で。
Llama 3.3 [日本語プロンプト]
GPU無し GPU使用・TPS(tokens/s) は eval_count / eval_duration により算出
・モデルロード済みの検証は省略
llama3.3:70b-instruct-q2_K(GPU無し)
Model
architecture llama
parameters 70.6B
context length 131072
embedding length 8192
quantization Q2_K
2026-02-18
total_duration(合計時間) : 369511406843 (369.511s)
load_duration(モデルのロード時間) : 25430173436 ( 25.430s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 11537516363 ( 11.538s)
eval_count(生成トークン数) : 489
eval_duration(生成時間) : 332192669511 (332.193s)
real 6m9.525s
user 0m0.042s
sys 0m0.041s
メモリ使用量(RSS) : 27220420 KB
llama3.3:70b-instruct-q4_K_M(GPU無し)
Model
architecture llama
parameters 70.6B
context length 131072
embedding length 8192
quantization Q4_K_M
2026-02-18
total_duration(合計時間) : 396867310741 (396.867s)
load_duration(モデルのロード時間) : 41532442823 ( 41.532s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 12201838832 ( 12.202s)
eval_count(生成トークン数) : 327
eval_duration(生成時間) : 342900002409 (342.900s)
real 6m36.876s
user 0m0.043s
sys 0m0.033s
メモリ使用量(RSS) : 42964084 KB
llama3.3:70b-instruct-q5_K_M(GPU無し)
Model
architecture llama
parameters 70.6B
context length 131072
embedding length 8192
quantization Q5_K_M
2026-02-18
total_duration(合計時間) : 598448102803 (598.448s)
load_duration(モデルのロード時間) : 23918957886 ( 23.919s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 16115371162 ( 16.115s)
eval_count(生成トークン数) : 458
eval_duration(生成時間) : 558083215322 (558.083s)
real 9m58.459s
user 0m0.027s
sys 0m0.086s
メモリ使用量(RSS) : 50215676 KB
llama3.3:70b-instruct-q2_K(GPU使用)
Model
architecture llama
parameters 70.6B
context length 131072
embedding length 8192
quantization Q2_K
2026-02-18
total_duration(合計時間) : 71464987383 (71.465s)
load_duration(モデルのロード時間) : 26548241729 ( 2.655s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 1606159325 ( 1.606s)
eval_count(生成トークン数) : 92
eval_duration(生成時間) : 43242444212 (43.242s)
real 1m11.484s
user 0m0.049s
sys 0m0.013s
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A |
| 0% 42C P2 55W / 170W | 11547MiB / 12288MiB | 6% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 1192 G /usr/lib/xorg/Xorg 122MiB |
| 0 N/A N/A 1912 G xfwm4 2MiB |
| 0 N/A N/A 2485 G /usr/bin/x-www-browser 263MiB |
| 0 N/A N/A 27991 C /usr/bin/ollama 11146MiB |
+---------------------------------------------------------------------------------------+
メモリ使用量(RSS) : 27019156 KB
llama3.3:70b-instruct-q4_K_M(GPU使用)
Model
architecture llama
parameters 70.6B
context length 131072
embedding length 8192
quantization Q4_K_M
2026-02-18
total_duration(合計時間) : 377982713271 (377.983s)
load_duration(モデルのロード時間) : 42163831477 ( 42.164s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 2989617171 ( 2.990s)
eval_count(生成トークン数) : 390
eval_duration(生成時間) : 332586692489 (332.587s)
real 6m18.000s
user 0m0.063s
sys 0m0.038s
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A |
| 0% 57C P2 50W / 170W | 11077MiB / 12288MiB | 3% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 1192 G /usr/lib/xorg/Xorg 122MiB |
| 0 N/A N/A 1912 G xfwm4 2MiB |
| 0 N/A N/A 2485 G /usr/bin/x-www-browser 256MiB |
| 0 N/A N/A 29136 C /usr/bin/ollama 10682MiB |
+---------------------------------------------------------------------------------------+
メモリ使用量(RSS) : 42986996 KB
llama3.3:70b-instruct-q5_K_M(GPU使用)
Model
architecture llama
parameters 70.6B
context length 131072
embedding length 8192
quantization Q5_K_M
2026-02-18
total_duration(合計時間) : 425383111507 (425.383s)
load_duration(モデルのロード時間) : 11951439513 ( 11.951s)
prompt_eval_count(評価されたプロンプトのトークン数) : 37
prompt_eval_duration(プロンプトの評価時間) : 3473274158 ( 3.473s)
eval_count(生成トークン数) : 398
eval_duration(生成時間) : 409702569513 (409.703s)
real 7m5.394s
user 0m0.056s
sys 0m0.030s
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A |
| 33% 55C P2 52W / 170W | 10777MiB / 12288MiB | 4% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 1192 G /usr/lib/xorg/Xorg 122MiB |
| 0 N/A N/A 1912 G xfwm4 2MiB |
| 0 N/A N/A 2485 G /usr/bin/x-www-browser 265MiB |
| 0 N/A N/A 33247 C /usr/bin/ollama 10374MiB |
+---------------------------------------------------------------------------------------+
メモリ使用量(RSS) : 50282116 KB