パソコン関連
PR

【検証】NVIDIAの新モデル「Nemotron-3-nano」のクイックレビュー!RTX 5080でぶん回してみた結果

えりる
記事内に商品プロモーションを含む場合があります

こんにちは、自宅LLM勢の皆さん。2025年もGPUに給料を吸われていますか?

今回は、NVIDIAから突如リリースされた新モデルNemotron-3-nanoを触ってみました。「Nano(ナノ)」っていうくらいだから、スマホでも動く可愛いヤツかな? と思いきや、中身はとんでもない「羊の皮を被ったゴリラ」でした。

最新の RTX 5080 (16GB) を使って、その実力と「罠」についてクイックレポートします。

Ollama + OpenWebUIで動かしてみる

Nemotron-3-nanoはOllamaという大規模言語モデル(LLM)を動かす無料のツールで使用することができます。
Ollamaだけだと少しGUIが心もとないので、ChatGPTのようにLLMを使うことができるOpen WebUIというGUIツールも併せて使いました。
Ollama+OpenWebUIでローカルLLMを使う方法は以下の記事で解説しているのでぜひこちらもご覧ください。

あわせて読みたい
【Open WebUI + Ollama】LLMを自分のパソコンで動かしてみよう
【Open WebUI + Ollama】LLMを自分のパソコンで動かしてみよう

環境ができたらターミナル上で以下のコマンドを実行することでNemotron-3-nanoをダウンロードでき、Ollamaで使用できるようになります。

ollama pull nemotron-3-nano:30b

賢さは本物。「GPUの選び方」を聞いてみたら…

まずはご挨拶がわりに、「LLMを動かすためのGPUの選び方を教えて(実際は英語で)」と聞いてみました。比較対象はChatGPT 5.2。

結果から言うと、Nemotron-3-nano、めちゃくちゃ詳しいです。

  • エンジニア視点が凄い: いきなり「VRAM帯域幅が支配的要因だ」と核心を突いてくる。
  • 具体的すぎる: 「CUDA Compute Capabilityは8.0以上がいいぞ」とか「vLLMやFlash-Attentionを使え」とか、オタクが喜ぶキーワードを連発。
  • 構成が綺麗: 読みやすい表形式で、ステップバイステップで解説してくれます。
  • 回答の量: ChatGPT 5.2よりも多く、専門的な内容でした。

ただ一つ、致命的な「天然ボケ」がありました。

「H100を8枚積んだエンタープライズサーバーは、$30k–$45k(約450〜600万円)で買えるよ!」

えりる
えりる

買えるか!!!!!桁が一個足りないよ!

どうやら「常識(価格などの事実知識)」に関しては、少しハルシネーション(幻覚)癖があるようです。まあ、ここはご愛嬌。

「Nano」という名の罠

このモデル、最大のツッコミどころはそのスペックです。

  • 名前: Nemotron-3-nano
  • パラメータ数: 30B (300億)
  • 推奨VRAM: 24GB
えりる
えりる

どこがNanoやねん。

一般的に「Nano」と言えば数Bクラスを想像しますが、こいつはガッツリ30Bあります。

面白いのが、先の質問でこいつ自身が「30Bモデルを動かすならVRAM 24GBのRTX 3090/4090を推奨するよ」と答えていたこと。
つまり、「俺を動かしたければ、お前の持ってる5080 (16GB) じゃ足りないZE☆ 4090を持ってくるとかさ」と、遠回しに自己紹介していたわけです。自己認識能力が高すぎる。

RTX 5080 (16GB) vs 30Bモデル

「推奨スペックを満たしていない? 知らん、回すだけだ!」
というわけで、あえてVRAM 16GBの RTX 5080 で強行突破してみました。

【検証環境】

  • GPU: RTX 5080 (VRAM 16GB)
  • RAM: 192GB DDR5-5200 (暴力的な容量)
  • ソフト: Ollama + OpenWebUI
  • 設定: 30Bモデル / Context 32k / GPU 25層オフロード

【結果】

  • 生成速度: 2.11 tokens/s
  • GPU使用率: 5〜7% (ほぼサボり)
えりる
えりる

遅い! 遅すぎる!1文字出るのに0.5秒くらいかかります。
チャットとして使うにはストレスがマッハです。

なぜこんなに遅いのか?

原因は明白で、VRAM (16GB) に入り切らなかったデータが、メインメモリ (DDR5) に溢れたからです。

  1. GPU「次の計算するぞー! データくれ!」
  2. DDR5「今送ってるよ…(ノロノロ運転)」
  3. GPU「……(待ちぼうけ)」
  4. GPU「きた! 計算完了!(一瞬)」
  5. GPU「次まだー?」

この「待ち時間」が95%を占めている状態です。
「CPUだけで回したほうが速い説」と思いましたが、CPU計算だとさらに遅くなるだけ(ボトルネックの場所は同じ+計算自体も遅くなる)なので、これが今の構成の限界値でした。

おすすめGPU

Nemotron-3-nanoを現実的な速さで動かそうと思うと、RTX 5090やRTX PRO 6000 Blackwell クラスが必要です。

NVIDIA GeForce RTX 5090

RTX 5090はVRAM32 GBなのでNemotron-3-nano +コンテキストが乗ります。
それでいて演算性能は最高クラスなので、お財布が許すならこれを買えば幸せになれるとは思います。

NVIDIA RTX PRO 6000 Blackwell

RTX PRO 6000 Blackwell はRTX 5090の演算性能+VRAM96GBの性能を誇るバケモノです。
こちらはRTX 5090が3台くらい買えそうな値段がしますが、予算無限なら選択肢に入る…かも?

2026年の前半にnanoよりもさらに大きいモデルであるSuper/Ultraの2種類のモデルの公開が予定されています。
VRAM 96 GBに収まるかはわかりませんが、Super/Ultraクラスを試したいならこいつの出番だと思います。ただし約150万円(笑)

AMD RADEON AI PRO R9700

RADEON AI PRO R 9700 は25万円クラスのコストでVRAM32GBを手に入れられるので、VRAMコストパフォーマンスが良いです。
Nemotron-3-nano +コンテキストが乗るサイズのGPUだとおそらく最も安い選択肢かと思います。

が、ROCm の導入が必須です(これが難易度高い)し、Ollamaのドキュメントを見ると2025年12月時点ではサポートGPUにR9700がありません。
なので動かない可能性もあります。(待ってれば対応しそうですけど)

R9700に関しては以下の記事で性能の詳細を調査レポートのような形でまとめたのでぜひ参考にしてみてください。

あわせて読みたい
【徹底調査】RADEON AI PRO R9700の情報を総まとめ&画像・動画生成の性能推定 NVIDIA GPUとの比較も!
【徹底調査】RADEON AI PRO R9700の情報を総まとめ&画像・動画生成の性能推定 NVIDIA GPUとの比較も!

結論:VRAM is King

Nemotron-3-nanoは、「中身は30Bのガチモデル」でした。
回答の質は非常に高く、論理的思考力はフラッグシップ級に肉薄しています。しかし、その知能をフルスピードで堪能するには、相応のハードウェアが必要です。

  1. 名前で判断するな: 「Nano」でもVRAM 24GB食うことがある。
  2. VRAMは正義: RTX 5080は神GPUだけど、30Bモデルを回すなら、旧世代でもVRAM 24GBのRTX 3090/4090の方が幸せになれる(またはVRAMモリモリのMac Studio)。
  3. 16GB勢の生きる道: 大人しく4bit量子化を諦めて「3bit量子化 (Q3_K_S)」にするか、コンテキストサイズを削りましょう。

今回はファーストインプレッションとして簡単な検証をしてみました。
これから日本語で入力したときの理解力や推論性能、マルチGPUなら快適に動くのかなどを検証したいと思っています。

えりる
えりる

現場からは以上です。
さて、H100が8枚で450万円で売ってる店を探す旅に出ます。
(ありません)

えりるさんが気になっている商品紹介コーナー

Minisforum のミニPC UN150P です。CPUは Intel N150 というもので基本的な消費電力は6Wくらいとかなり低消費電力でありながら、ネットサーフィンやYouTubeの動画視聴くらいなら困らないくらいの性能があります。Raspberry Pi 5 よりも性能が良いそうです。
消費電力が少ないので、Ubuntu等を入れてサーバー的に使うこともできますね。同じような用途だとRaspberry Piでもできますが、ケース等を買っていると結局同じくらいの値段になるので、それだったらミニPCにした方がいいかなと思います。
えりるさんはサーバー運用のお勉強に買ってみようかなあと計画中です。(Raspberry Pi 4 1GBだとちょっとスペックが足りなかった…)

えりるについて
えりる
えりる
日本のどこかに生息する平成生まれの研究者。とっても理論家と思いきや気分屋さんでもある。基本的にめんどくさがり。修士(工学)を持っている。 Windows, Mac, Linuxの三刀流。
記事URLをコピーしました