ローカルLLMの実測値比較

Last Update 2026/03/21

TOP - 各種テスト - LLM - ローカルLLMの実測値比較 Nemotron

低スペック寄りのPCでローカルLLMを動作させた際の記録です。
LLM以外の仮想マシンなどが起動され、多少負荷がかかった状態で実行しています。
ベンチマークなどでLLMの性能を評価する内容ではありません。

検証用PC

OS	Debian GNU/Linux 12 (bookworm)
CPU	Intel(R) Core(TM) i5-14400F
GPU	GeForce RTX 3060 12GB
メモリ	DDR4 PC4-25600 32GB × 4
SSD	crucial P310 CT1000P310SSD8-JP

構築環境 : Docker + Ollama (特別な設定などは無い状態)

検証用プロンプト[英語]

Could you please recommend some great places in the US to see beautiful scenery? Around 10 places in all four directions.

検証用プロンプト[日本語]

おすすめの日本の絶景を教えてください。東西南北、10箇所程度、日本語で。

Nemotron

GPU無し[英語]

70b-instruct-q4_K_M(0.93TPS)

GPU無し[日本語]

70b-instruct-q4_K_M(0.93TPS)

GPU使用[英語]

70b-instruct-q4_K_M(1.16TPS)

GPU使用[日本語]

70b-instruct-q4_K_M(1.15TPS)

・TPS(tokens/s) は eval_count / eval_duration により算出
・モデルロード済みの検証は省略

nemotron:70b-instruct-q4_K_M(GPU無し)[英語]

Model architecture llama parameters 70.6B context length 131072 embedding length 8192 quantization Q4_K_M 2026-02-28 total_duration(合計時間) : 591338213108 (591.338s) load_duration(モデルのロード時間) : 25447521882 ( 25.448s) prompt_eval_count(評価されたプロンプトのトークン数) : 39 prompt_eval_duration(プロンプトの評価時間) : 12949858635 ( 12.950s) eval_count(生成トークン数) : 514 eval_duration(生成時間) : 552562798573 (552.563s) real 9m51.393s user 0m0.045s sys 0m0.066s メモリ使用量(RSS) : 42953904 KB

nemotron:70b-instruct-q4_K_M(GPU無し)[日本語]

Model architecture llama parameters 70.6B context length 131072 embedding length 8192 quantization Q4_K_M 2026-02-28 total_duration(合計時間) : 831787868182 (831.788s) load_duration(モデルのロード時間) : 16277271250 ( 16.277s) prompt_eval_count(評価されたプロンプトのトークン数) : 42 prompt_eval_duration(プロンプトの評価時間) : 13786041432 ( 13.786s) eval_count(生成トークン数) : 749 eval_duration(生成時間) : 801172592778 (801.173s) real 13m51.808s user 0m0.081s sys 0m0.081s メモリ使用量(RSS) : 42974260 KB ------------------------------------------------- 【生成結果に関する検証】・紹介ポイントは10箇所。東西南北も考慮(5地域) ・言語混同無し・地域間違い無し・文章は違和感を感じないレベル(内容の評価を除く) -------------------------------------------------

nemotron:70b-instruct-q4_K_M(GPU使用)[英語]

Model architecture llama parameters 70.6B context length 131072 embedding length 8192 quantization Q4_K_M 2026-02-28 total_duration(合計時間) : 460075245210 (460.075s) load_duration(モデルのロード時間) : 3698625676 ( 3.699s) prompt_eval_count(評価されたプロンプトのトークン数) : 39 prompt_eval_duration(プロンプトの評価時間) : 2778893009 ( 2.779s) eval_count(生成トークン数) : 524 eval_duration(生成時間) : 453266884729 (453.267s) real 7m40.094s user 0m0.094s sys 0m0.016s +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A | | 32% 56C P2 55W / 170W | 11042MiB / 12288MiB | 23% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 1173 G /usr/lib/xorg/Xorg 118MiB | | 0 N/A N/A 1886 G xfwm4 2MiB | | 0 N/A N/A 2395 G /usr/bin/x-www-browser 226MiB | | 0 N/A N/A 314436 C /usr/bin/ollama 10682MiB | +---------------------------------------------------------------------------------------+ メモリ使用量(RSS) : 42992192 KB

nemotron:70b-instruct-q4_K_M(GPU使用)[日本語]

Model architecture llama parameters 70.6B context length 131072 embedding length 8192 quantization Q4_K_M 2026-02-28 total_duration(合計時間) : 585951208512 (585.951s) load_duration(モデルのロード時間) : 2693856925 ( 2.694s) prompt_eval_count(評価されたプロンプトのトークン数) : 42 prompt_eval_duration(プロンプトの評価時間) : 2791223275 ( 2.791s) eval_count(生成トークン数) : 666 eval_duration(生成時間) : 580020294061 (580.020s) real 9m45.962s user 0m0.048s sys 0m0.062s +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.261.03 Driver Version: 535.261.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA GeForce RTX 3060 On | 00000000:01:00.0 On | N/A | | 33% 50C P2 53W / 170W | 11053MiB / 12288MiB | 5% Default | | | | N/A | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | 0 N/A N/A 1173 G /usr/lib/xorg/Xorg 118MiB | | 0 N/A N/A 1886 G xfwm4 2MiB | | 0 N/A N/A 2395 G /usr/bin/x-www-browser 237MiB | | 0 N/A N/A 320042 C /usr/bin/ollama 10682MiB | +---------------------------------------------------------------------------------------+ メモリ使用量(RSS) : 42987568 KB ------------------------------------------------- 【生成結果に関する検証】・紹介ポイントは10箇所。東西南北も考慮・言語混同が発生「特に夜間のilluminationが」・ふりがな間違いが発生「宮城県松島（みやぎづりしま）」・文章は違和感を感じないレベル(内容の評価を除く) -------------------------------------------------