最新LLM・モデル
Gemma4 31B をROCm 7.2.1で動かしてみた
Qiita AI公開: 2026年4月4日
出典:Qiita AI
この記事のポイント
- 1最新のGemma 4 31BをAMD製GPU(Radeon 8060S)で動作させることに成功
- 2生成速度10.7 t/sを達成し、ローカル環境でも実用的なレスポンスを実現
- 3llama.cppを活用することで、NVIDIA以外の環境でも最新AIの恩恵を受けられる
要約
Googleの最新オープンウェイトモデル「Gemma 4 31B」を、AMD製のGPU環境(ROCm)で動作させた実践記録です。使用されたハードウェアは最新の「AMD Ryzen AI MAX+ 395」および「Radeon 8060S (VRAM 32GB)」。推論エンジンにはllama.cppのROCmビルドが用いられました。4ビット量子化モデル(Q4_K_M)を使用し、全層をGPUにオフロードすることで、プロンプト処理速度 62.5 t/s、トークン生成速度 10.7 t/sという、実用的なパフォーマンスを達成しています。31B(310億パラメータ)という大規模なモデルながら、32GBのVRAMを活かしてコンテキストサイズ4096トークンを確保。Googleの最新モデルが、NVIDIA以外のハードウェアでもスムーズに動作することがベンチマークと共に示されました。動作には最新のllama.cpp(b8661以降)が必要です。
出典:Qiita AI の情報をもとにAIが要約
当サイトの考察
“
ヒナキラです!先週、NVIDIAがGemma 4を爆速化したニュースをお伝えしましたが、AMDユーザーも負けていません。今回の記事は、高価なNVIDIA GPUを使わなくても、最新鋭のGemma 4 31Bが「サクサク動く」ことを証明した貴重なレポートです。10.7 t/sという生成速度は、人間が読むスピードよりも速いため、日常的なチャットやコーディング支援には十分すぎる性能です。特に、VRAM 32GBを搭載したAMD環境で、31Bという「重めだが賢い」モデルが動くのは、ローカルAI派のクリエイターにとって朗報。副業で機密情報を扱う場合、ChatGPTにデータを送りたくない場面もありますよね。そんな時、Gemma 4のような高性能モデルをローカルで動かせれば、プライバシーを守りつつ高度な推論(企画立案や長文添削など)が可能です。ハードウェアの選択肢が広がることは、個人のAI活用コストを下げることに直結します。AMD派の皆さんは、ぜひllama.cppでの構築に挑戦してみてください!
よくある質問
QAMDのGPUでもAIは動きますか?
A
はい、今回の記事のように「ROCm」というプラットフォームとllama.cppなどのツールを組み合わせることで、最新のモデルも動かすことができます。
Q31Bというモデルのサイズは、どれくらいのPCが必要ですか?
A
4ビット量子化されたモデルであれば、約18GB以上のVRAM(ビデオメモリ)が必要です。今回の32GB搭載モデルなら余裕を持って動作します。
Qローカルで動かすメリットは何ですか?
A
月額料金がかからないこと、インターネット不要で動くこと、そして何より入力したデータが外部に送信されないためプライバシーが完全に守られることです。
用語解説
ROCm
AMDが提供するオープンなGPU計算プラットフォーム。NVIDIAのCUDAに相当するもので、AI処理に不可欠。
llama.cpp
一般的なPC(CPU/GPU)で大規模言語モデルを高速に動作させるためのオープンソースソフトウェア。
量子化(Quantization)
モデルのデータ量を圧縮する技術。精度を大きく落とさずに、少ないメモリでAIを動かせるようになる。
※ この記事の要約・考察・FAQ・用語解説はAIによって生成されています。正確な情報は元記事をご確認ください。

ヒナキラ
Hinakira AI News 編集長
AIツール・LLM・プロンプト活用術を中心に、個人クリエイター・副業者向けのAI最新情報を毎日お届けしています。AI歴3年以上、いろんな用途に実際に使って試してきた知見をもとに、読者が「自分ごと」として活用できる考察を心がけています。
