Stable Diffusion
PR

【生成AI用おすすめGPU】Stable Diffusionのパフォーマンス比較とおすすめグラボ、パソコンの紹介【RTX50シリーズ】

えりる
記事内に商品プロモーションを含む場合があります

この記事ではNVIDIAの最新グラフィックボードのRTX5080 16GB, 5070 12GBと前世代のRTX4060 8GBのStable Diffusionのパフォーマンス(画像生成時間)比較をします。
その後、比較結果を踏まえてStable DifffusionにおすすめのGPUとパソコンを紹介します。

使用するグラフィックボード

使用するGPUは以下の通りです。ビデオメモリも16 GB, 12 GB, 8 GBと3パターンです。

  • RTX 5080 (ビデオメモリ16 GB)
  • RTX 5070 (ビデオメモリ 12 GB)
  • RTX4060 (ビデオメモリ 8 GB)
MSI GeForce RTX 5080 16G VENTUS 3X OC WHITE
created by Rinker
玄人志向 RTX 4060 8GB GK-RTX4060-E8GB WHITE DF2
created by Rinker

比較方法

検証方法は、いくつかの条件でStable Diffusionに画像を生成させて、
そのときの画像生成時間を比較します
生成時間はStable Difffusionで画像生成後にでてくるTime takenの値を参照します。

検証環境の詳細はこちら

パソコンとOS

パーツ名前
CPURyzen 5 5500 6コア12スレッド
マザーボードASRock B550M Pro RS
メモリSKhynix DDR42666 8GB x4 = 32 GB
GPURTX 5080 16GB
RTX 5070 12 GB
RTX 4060 8 GB
SSD1 TB (MVMe)
OSUbuntu 24.04 (ネイティブ環境)
NVIDIA Driver570.133.20
主要なライブラリなどCUDA 12.8
Pytorch 2.8 (Nightly)
xformers 0.0.30 (詳細はこちら)

Stable Diffusion

  • コミットハッシュ: 82a973c04367123ae98bd9abdf80d9eda9b910e2
  • 起動オプション: –xformers –opt-channelslast
  • 使用したモデル:
    • Anything v5 (hash = 7f96a1a9ca )
    • Anything XL (hash = 8421598e93)
    • AnimagineXL v4.0 (hash = 6327eca98b)

512×768:神里綾華ベンチマーク(SD 1.5)

512x768pxの画像を10枚連続で生成するのにかかる時間を比較します。
比較できるようにちもろぐさんのベンチマークとできるだけ同じ条件にしました。

使用したモデルのバージョンはSD 1.5なので、軽量モデルを使った小さい画像生成をする場合のベンチマークです。

使用モデル、Stable Difffusionの設定の詳細はこちら
  • Model: Anything v5 (hash = 7f96a1a9ca )
  • 画像生成の設定
    • Positive Prompt:
      masterpiece, best quality, 1girl, kamisato ayaka (flawless radiance), genshin, kamisato ayaka, official costume, beatufiul face, ponytail, kote, kusazuri, blunt bangs, hair ribbon, red ribbon, japanese armor, grey eyes, light blue hair, looking at viewer, sakura background,
    • Negative Prompt:
      nsfw, (worst quality, low quality, bad anatomy, extra digits), signature, artist name, watermark, bad_prompt,
    • Method: DPM++ 2M Karras
    • Sampling Steps: 20
    • Batch Count: 10
    • Batch size: 1
    • CFG Scale: 7
    • Seed: 20210928

生成時間は下のグラフのようになりました。すべてのGPUでビデオメモリ系のオプションはつけていません。

まず、RTX4060 8GBでも通常の設定で生成成功しているので、
SD 1.5のモデルで512×768px程度の小さいサイズの画像生成をする場合は、VRAMが8 GBでも足りていることがわかります。

また、RTX5080が17秒程度に対し、RTX4060が33秒で約2倍の時間がかかっています。
一方で価格としてはRTX5080が25万円オーバーに対してRTX4060 8GBは5万円程度です。

VRAMが足りている状況ではRTX4060 8GBなどの廉価グラボがコスパ的にはよさそうです。

一方で、画像生成をしていると小さい画像だけでは絶対に満足できなくなってきます。
のちに登場しますが、ビデオメモリが8 GBのGPUでは大きな画像生成はできません。
Stable Difffusionでいろいろ遊びたい人はビデオメモリが12 GB以上もGPUを買いましょう。

1024×1024:トキ(SDXL 1.0)

1024×1024pxの画像を5枚連続で生成するのにかかる時間を比較します。
比較できるようにちもろぐさんのベンチマークとできるだけ同じ条件にしました。

使用したモデルのバージョンはSDXL 1.0なので重ためのモデルで、大きな画像を一回で生成する場合のベンチマークです。

使用モデル、Stable Difffusionの設定の詳細はこちら
  • Model: AnimagineXL v4.0 (hash = 6327eca98b)
  • 画像生成の設定
    • Positive Prompt:
      1girl, toki (blue archive), blue archive, toki sits cross-legged in her chair. looking at viewer, cowboy shot, masterpiece, best quality, newest,
    • Negative Prompt:
      nsfw, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry, artist name,
    • Method: Euler a automatic
    • Sampling Steps: 15
    • Batch Count: 5
    • Batch size: 1
    • CFG Scale: 7
    • Seed: 50

ビデオメモリ系の起動オプションは以下の通りです。

  • RTX 5080 16GB: 特になし
  • RTX 5070 12GB: –medvram
  • RTX 4060 8GB: –lowvram

まず目につくのが、VRAM 8 GBのRTX 4060が異常に遅いです。メモリが足りないことと、演算性能が低いことが重なり、かなり生成速度が遅くなっているのだと考えられます。
SDXL1.0のモデルはサイズが大きいですし、画像サイズが大きくなると演算処理も重たくなるのでRTX4060 8GBではメモリ容量的にも演算性能的にも厳しくなってきます。

また、RTX5080の生成時間がRTX5070の約60%程度で済んでいます。
が、価格はRTX5080が25万円以上、RTX5070は12万円くらいと半分以下の値段です。
価格差を考えると、RTX5080の半分以下の値段で生成時間が1.7倍になるくらいで済むので
RTX5070 12 GBは良い選択肢になると思います。

ちょっと意外だったのが、えりるさんの環境だとVRAMが12 GBあるRTX 5070が通常起動では生成失敗したんですよね。
–medvramで起動してもRTX5080に対して生成時間がかなり劣っているわけでもないので、影響は小さそうですね。

VRAMは最低12 GB、予算が許すならVRAMは16 GB以上積んでおいたほうが良いと思います。

SDXL1.0 縦長画像チャレンジ  1024x1536px

1024x1536pxの画像を5枚連続で生成するのにかかる時間を比較します。

使用したモデルのバージョンはSDXL 1.0なので重ためのモデルで、大きな画像を一回で生成する場合のベンチマークです。

使用モデル、Stable Difffusionの設定の詳細はこちら
  • Model: AnimagineXL v4.0 (hash = 6327eca98b)
  • 画像生成の設定
    • Method: Euler a automatic
    • Sampling Steps: 15
    • Batch Count: 5
    • Batch size: 1
    • CFG Scale: 7

ビデオメモリ系の起動オプションは以下の通りです。

  • RTX 5080 16GB: 特になし
  • RTX 5070 12GB: –medvram
  • RTX 4060 8GB: –lowvram

生成時間は以下のグラフの通りです。

1024×1024:トキ(SDXL 1.0)ベンチマークと傾向は同じです。
特徴をまとめると以下の通りです。

  • SDXL1.0を使った大きい画像の生成ではRTX4060 8GBではメモリ容量的にも演算性能的にも厳しい。
  • RTX5080の生成時間がRTX5070の約60%程度と早い。
  • RTX5080の半分以下の値段で生成時間が1.7倍になるくらいで済むので、価格差を考えるとRTX5070 12 GBは良い選択肢になる
  • VRAMは最低12 GB、予算が許すならVRAMは16 GB以上あるとよい。

FHD生成  960x540px + Hires.Fix(2倍)

960x540pxの画像を1枚生成した後にHires.fixを使用して2倍にアップスケールするのにかかる時間を比較します。
使用したモデルのバージョンはSD 1.5 なので小さい画像生成用の軽量モデルです。
小さい画像を生成した後にアップスケールして、解像度の高い画像を生成する場合のベンチマークです。

先に言っておくと、Hires.fixによるアップスケールは非常に重く、うまく高解像度化ができない場合も多いので、みなさんは絶対にControlNet Tileによるアップスケールを使いましょう。(後に出てきます)

使用モデル、Stable Difffusionの設定の詳細はこちら
  • Model: Anything v5 (hash = 7f96a1a9ca )
  • 画像生成の設定
    • 画像サイズ: 960x540px
    • Method: DPM++ 2M Karras
    • Sampling Steps: 20
    • Batch Count: 1
    • Batch size: 1
    • CFG Scale: 7
  • Hires.fixの設定
    • upscale x2.0
    • steps 10
    • upscaler Latent
    • Denoising strength 0.6

ビデオメモリ系の起動オプションは以下の通りです。

  • RTX 5080 16GB: 特になし
  • RTX 5070 12GB: 特になし
  • RTX 4060 8GB: –lowvram

生成時間は以下のグラフの通りです。

SD 1.5 の小さい画像生成用モデルを使用しているのでRTX4060 8 GBが持ち直しましたが、RTX5080の約4倍の時間がかかっています。
このあたりはVRAM不足(lowvram設定)が効いてきてる気がしますね。

RTX5070も24秒と悪くない成績です。コストパフォーマンス的には悪くはないですね。
(もう少し値段が下がってくれると嬉しいところ)

やはり実用的にはビデオメモリは12 GB以上は必要ということでしょうか。

4K生成  960x540px + Hires.Fix(4倍)

使用モデル、Stable Difffusionの設定の詳細はこちら
  • Model: Anything v5 (hash = 7f96a1a9ca )
  • 画像生成の設定
    • 画像サイズ: 960x540px
    • Method: DPM++ 2M Karras
    • Sampling Steps: 20
    • Batch Count: 1
    • Batch size: 1
    • CFG Scale: 7
  • Hires.fixの設定
    • upscale x4.0
    • steps 10
    • upscaler Latent
    • Denoising strength 0.6

Hires.fixで4K画像を生成しようとすると–lowvramオプションをつけたRTX5080 16GBだとしても生成不可能でした。

FHD生成  960x540px + ControlNet Tile(2倍)

960x540pxの画像をControlNet Tileを使用して2倍にアップスケールしてフルHDの画像を生成するときの時間を比較します。
ControlNet Tileは画像を分割して生成してからつなぎ合わせてアップスケールするので、ビデオメモリの消費が少なく済み、アップスケール後の画像が乱れにくい特徴があります。
画像のアップスケールはControlNet Tileを使いましょう。

使用モデル、Stable Difffusionの設定の詳細はこちら
  • Model: Anything v5 (hash = 7f96a1a9ca )
  • img2imgの設定
    • 画像サイズ: 960x540px
    • Method: DPM++ 2M Karras
    • Sampling Steps: 20
    • Batch Count: 1
    • Batch size: 1
    • CFG Scale: 7
    • Denoising strength: 0.55
  • ControlNet Tileの設定
    • Pixel Perfect
    • Preprocessor: tie_resample
    • Model: control_v11f1e_sd15_tile [a371b31b]
    • script: SD_upscale
    • Upscaler: SwinIR_4x
    • Tile overlap: 64
    • Scale Factor: 2

ビデオメモリ系の起動オプションは以下の通りです。

  • RTX 5080 16GB: 特になし
  • RTX 5070 12GB: 特になし
  • RTX 4060 8GB: –lowvram

生成時間は以下のグラフの通りです。

ここまでくるとRTX 4060は厳しい結果に。VRAM不足と演算性能不足が効いて差が開いています。

RTX5080が28秒に対してRTX5070が39秒と、40%増となっています。価格差が10万円以上あるのでかなりコスパがよさそうに思います。
また、実時間も1分以内なので待ち時間としても耐えられるくらいの長さに収まっているかなと思います。

ControlNetを使ったフルHD画像生成ではRTX5070以上の演算性能とメモリが12GB以上が必要といえます。

4K生成  960x540px + ControlNet Tile(4倍)

960x540pxの画像をControlNet Tileを使用して4倍にアップスケールして4Kの画像を生成するときの時間を比較します。

使用モデル、Stable Difffusionの設定の詳細はこちら
  • Model: Anything v5 (hash = 7f96a1a9ca )
  • img2imgの設定
    • 画像サイズ: 960x540px(=画像分割単位)
    • Method: DPM++ 2M Karras
    • Sampling Steps: 20
    • Batch Count: 1
    • Batch size: 1
    • CFG Scale: 7
    • Denoising strength: 0.55
  • ControlNet Tileの設定
    • Pixel Perfect
    • Preprocessor: tie_resample
    • Model: control_v11f1e_sd15_tile [a371b31b]
    • script: SD_upscale
    • Upscaler: SwinIR_4x
    • Tile overlap: 64
    • Scale Factor: 4

ビデオメモリ系の起動オプションは以下の通りです。

  • RTX 5080 16GB: 特になし
  • RTX 5070 12GB: 特になし
  • RTX 4060 8GB: –lowvram

生成時間は以下のグラフの通りです。

フルHDと同様にRTX 4060は厳しい結果に。VRAM不足と演算性能不足が効いて差が開いています。

メモリが12 GB以上のグラボ(RTX5070, 5080)は現実的な生成時間に収まっているので、メモリは12 GB以上あるとよいでしょう。

4K画像生成ともなると、RTX5080ですら1分以上はかかります。それに対してRTX5070は50%増となる100秒程度となります。

差にして30秒程度。何枚もアップスケールするならその分だけこの差(30秒)が積みあがるのでかなりの時間差になります。
そんな用途があるのかはわかりませんが、このような用途の場合はRTX5080クラスが良いでしょう。
これまでの結果でRTX5080が思ったより遅い感じがあるので、価格的に安価でメモリが16 GBあるRTX5070Tiも選択肢に入ると思います。

一方で、1枚程度のアップスケールであれば30秒くらい待てばいいのでRTX5070が良い選択肢になります。

まとめると、ControlNetを使った4K画像生成ではメモリが12GB以上が必要で、

  • 【軽めの用途】数枚程度のアップスケール用途→5070以上の演算性能
  • 【激重用途】数十枚のアップスケール→RTX5070Ti以上の演算性能

えりる研究室勝手推奨GPU

ここまでのベンチマーク結果を踏まえると、Stable Diffusionでの画像生成を楽しむには

  1. メモリが12 GB以上
  2. RTX 5070以上の演算性能

が必要ということになります。(優先順に並べました)
特にメモリ12 GB以上は必須だと考えてよいです。メモリ8 GB以下のグラボは買わないようにしましょう。

以上を踏まえて選んだ、えりる研究室勝手推奨グラボは以下の3つです。

【コスパ部門】RTX 5070 12 GB

ZOTAC GAMING GeForce RTX 5070 SOLID
created by Rinker

えりる研究室勝手推奨グラボコスパ部門はRTX 5070 12 GB です。
今回の検証で出た必要スペックを満たしている最廉価グラボですね。

大手通販ショップの中での最安値は2025/04/28時点で108,799円です(パソコンSHOPアーク)。登場初期からは少し値段が下がってきました。
値段的には10万円を切ってくるとコスパがさらに良くなってきますね。

【性能部門】RTX 5070 Ti

created by Rinker
¥186,790 (2025/05/03 21:58:45時点 楽天市場調べ-詳細)

えりる研究室勝手推奨グラボ性能部門はRTX 5070 Ti 16 GB です。
今回の検証で出た必要スペック以上のグラボで、
SDXL1.0のモデルを使った大きめの画像生成にも対応できるメモリを備えたグラボですね。

今回の検証ではRTX 5080が思ったよりも遅かったので、価格に合わないなと判断。
値段が17万円くらいとすごくお高いですが、RTX 5080と比べると8~10万円安いのでコスパもよさそうに思います。
性能はRTX5080と比べて17%ダウンといった感じですが、今回の検証内容から考えるとStable Difffusionではメモリが最重要でその次に演算性能が重要という結果だったので、
メモリが16 GBとRTX5080と同じのRTX 5070Tiのほうが良いと判断しました。

RTX 5070 Ti 乗せておけば多分困ることはないと思います!

【価格重視部門】RTX 5060 Ti 16GB

玄人志向 NVIDIA Geforce RTX5060Ti
created by Rinker

えりる研究室勝手推奨グラボ価格重視部門はRTX 5060 Ti 16 GB です。
SDXL1.0のモデルを使った大きめの画像生成にも対応できるメモリを備えたグラボですね。
演算性能はRTX5070以下なので生成速度は犠牲になりますが、メモリ(VRAM)がRTX5080と同じ16 GBあるので、重たい画像生成もこなせます。

値段もAmazon価格で86,667円(2025/04/28時点)なので、10万円以下で買えます。
本当はもう1万円くらい値段が下がると性能に見合った価格かなと思います。

同じRTX 5060 Tiにはメモリが8 GBのものもあるので注意してください。
そちらのほうが安いですが、Stable Difffusionの画像生成には向かないので、
画像生成目的でGPUを探している人は絶対に買わないようにしてください。

えりる研究室勝手推奨Stable Diffusion 用BTOパソコン

出来上がったパソコンで探したい人向けにBTOパソコンでも選定してみました。

【コスパ部門】ドスパラ GALLERIA (Core Ultra 7 + RTX5070)

created by Rinker
¥296,480 (2025/05/04 06:51:10時点 楽天市場調べ-詳細)

コスパ部門ではドスパラが販売しているGALLERIAをピックアップ。
Amazon、楽天、Yahooでも直売しています。ポイントなどがおいしいところで買うのがよさそうですね。

GPUはRTX5070を搭載しているので、今回の検証で出た必要スペックはみたしています。
また、CPUには最新のIntel CPUである Core Ultra 7 285Kを搭載
性能的には申し分ないですね。フルHDゲームも十分いけます。
4Kゲームは設定次第で遊べると思います。
えりるさんはRTX 5070 でモンハンワイルズを4Kで遊んでいました。

最新Intel CPUはあまり良い噂は聞きませんが、えりるさんはCore Ultra 9 285Kを使っています。
画像生成にもゲームにもまったく不満はありませんし、Stable Difffusionの画像生成はCPU性能はあまり効かないので大丈夫です。

【性能部門】アークBTOパソコン(Ryzen 7 9700X + RTX5070Ti)

性能部門ではアークが販売しているBTOパソコンをピックアップ。
Ryzen 7 + RTX5070Ti搭載で349,800円です。性能十分で値段も抑えられているように思ったのでこれを選定。

GPUはRTX5070TiなのでVRAM十分、演算性能十分で、大きめの画像生成もサクサクこなせると思います。
たくさん画像を生成したい人にはおすすめのパソコンです!

まとめ

この記事ではNVIDIAの最新グラフィックボードのRTX5080 16GB, 5070 12GBと前世代のRTX4060 8GBのStable Diffusionのパフォーマンス(画像生成時間)比較をしました。

この記事でのベンチマーク結果をまとめると、Stable Diffusionでの画像生成を楽しむには

  1. メモリが12 GB以上
  2. RTX 5070以上の演算性能

が必要だといえます。

最近はRTX50シリーズの供給不足も改善されて買えるようになってきました。

もしこの記事が参考になったら以下のリンクからRTX50シリーズGPUを探してみてください。

えりる研究室の活動の支えになります。
ぜひともよろしくお願いいたします。

えりるについて
えりる
日本のどこかに生息する平成生まれの研究者。とっても理論家と思いきや気分屋さんでもある。基本的にめんどくさがり。修士(工学)を持っている。
記事URLをコピーしました