【検証】NVIDIAの新モデル「Nemotron-3-nano」のクイックレビュー!RTX 5080でぶん回してみた結果
こんにちは、自宅LLM勢の皆さん。2025年もGPUに給料を吸われていますか?
今回は、NVIDIAから突如リリースされた新モデル「Nemotron-3-nano」を触ってみました。「Nano(ナノ)」っていうくらいだから、スマホでも動く可愛いヤツかな? と思いきや、中身はとんでもない「羊の皮を被ったゴリラ」でした。
最新の RTX 5080 (16GB) を使って、その実力と「罠」についてクイックレポートします。
賢さは本物。「GPUの選び方」を聞いてみたら…
まずはご挨拶がわりに、「LLMを動かすためのGPUの選び方を教えて(実際は英語で)」と聞いてみました。比較対象はChatGPT 5.2。
結果から言うと、Nemotron-3-nano、めちゃくちゃ詳しいです。
- エンジニア視点が凄い: いきなり「VRAM帯域幅が支配的要因だ」と核心を突いてくる。
- 具体的すぎる: 「CUDA Compute Capabilityは8.0以上がいいぞ」とか「vLLMやFlash-Attentionを使え」とか、オタクが喜ぶキーワードを連発。
- 構成が綺麗: 読みやすい表形式で、ステップバイステップで解説してくれます。
- 回答の量: ChatGPT 5.2よりも多く、専門的な内容でした。
ただ一つ、致命的な「天然ボケ」がありました。
「H100を8枚積んだエンタープライズサーバーは、$30k–$45k(約450〜600万円)で買えるよ!」

買えるか!!!!!桁が一個足りないよ!
どうやら「常識(価格などの事実知識)」に関しては、少しハルシネーション(幻覚)癖があるようです。まあ、ここはご愛嬌。
「Nano」という名の罠
このモデル、最大のツッコミどころはそのスペックです。
- 名前: Nemotron-3-nano
- パラメータ数: 30B (300億)
- 推奨VRAM: 24GB

どこがNanoやねん。
一般的に「Nano」と言えば数Bクラスを想像しますが、こいつはガッツリ30Bあります。
面白いのが、先の質問でこいつ自身が「30Bモデルを動かすならVRAM 24GBのRTX 3090/4090を推奨するよ」と答えていたこと。
つまり、「俺を動かしたければ、お前の持ってる5080 (16GB) じゃ足りないZE☆ 4090を持ってくるとかさ」と、遠回しに自己紹介していたわけです。自己認識能力が高すぎる。
RTX 5080 (16GB) vs 30Bモデル
「推奨スペックを満たしていない? 知らん、回すだけだ!」
というわけで、あえてVRAM 16GBの RTX 5080 で強行突破してみました。
【検証環境】
- GPU: RTX 5080 (VRAM 16GB)
- RAM: 192GB DDR5-5200 (暴力的な容量)
- ソフト: Ollama + OpenWebUI
- 設定: 30Bモデル / Context 32k / GPU 25層オフロード
【結果】
- 生成速度: 2.11 tokens/s
- GPU使用率: 5〜7% (ほぼサボり)

遅い! 遅すぎる!1文字出るのに0.5秒くらいかかります。
チャットとして使うにはストレスがマッハです。
なぜこんなに遅いのか?
原因は明白で、VRAM (16GB) に入り切らなかったデータが、メインメモリ (DDR5) に溢れたからです。
- GPU「次の計算するぞー! データくれ!」
- DDR5「今送ってるよ…(ノロノロ運転)」
- GPU「……(待ちぼうけ)」
- GPU「きた! 計算完了!(一瞬)」
- GPU「次まだー?」
この「待ち時間」が95%を占めている状態です。
「CPUだけで回したほうが速い説」と思いましたが、CPU計算だとさらに遅くなるだけ(ボトルネックの場所は同じ+計算自体も遅くなる)なので、これが今の構成の限界値でした。
おすすめGPU
Nemotron-3-nanoを現実的な速さで動かそうと思うと、RTX 5090やRTX PRO 6000 Blackwell クラスが必要です。
NVIDIA GeForce RTX 5090
RTX 5090はVRAM32 GBなのでNemotron-3-nano +コンテキストが乗ります。
それでいて演算性能は最高クラスなので、お財布が許すならこれを買えば幸せになれるとは思います。
NVIDIA RTX PRO 6000 Blackwell
RTX PRO 6000 Blackwell はRTX 5090の演算性能+VRAM96GBの性能を誇るバケモノです。
こちらはRTX 5090が3台くらい買えそうな値段がしますが、予算無限なら選択肢に入る…かも?
2026年の前半にnanoよりもさらに大きいモデルであるSuper/Ultraの2種類のモデルの公開が予定されています。
VRAM 96 GBに収まるかはわかりませんが、Super/Ultraクラスを試したいならこいつの出番だと思います。ただし約150万円(笑)
AMD RADEON AI PRO R 9700
RADEON AI PRO R 9700 は25万円クラスのコストでVRAM32GBを手に入れられるので、VRAMコストパフォーマンスが良いです。
Nemotron-3-nano +コンテキストが乗るサイズのGPUだとおそらく最も安い選択肢かと思います。
が、ROCm の導入が必須です(これが難易度高い)し、Ollamaのドキュメントを見ると2025年12月時点ではサポートGPUにR9700がありません。
なので動かいない可能性もあります。(待ってれば対応しそうですけど)
R9700に関しては以下の記事で性能の詳細を調査レポートのような形でまとめたのでぜひ参考にしてみてください。

結論:VRAM is King
Nemotron-3-nanoは、「中身は30Bのガチモデル」でした。
回答の質は非常に高く、論理的思考力はフラッグシップ級に肉薄しています。しかし、その知能をフルスピードで堪能するには、相応のハードウェアが必要です。
- 名前で判断するな: 「Nano」でもVRAM 24GB食うことがある。
- VRAMは正義: RTX 5080は神GPUだけど、30Bモデルを回すなら、旧世代でもVRAM 24GBのRTX 3090/4090の方が幸せになれる(またはVRAMモリモリのMac Studio)。
- 16GB勢の生きる道: 大人しく4bit量子化を諦めて「3bit量子化 (Q3_K_S)」にするか、コンテキストサイズを削りましょう。
今回はファーストインプレッションとして簡単な検証をしてみました。
これから日本語で入力したときの理解力や推論性能、マルチGPUなら快適に動くのかなどを検証したいと思っています。

現場からは以上です。
さて、H100が8枚で450万円で売ってる店を探す旅に出ます。
(ありません)

