最新LLM・モデル

Gemma4 31B をROCm 7.2.1で動かしてみた

Qiita AI公開: 2026年4月4日

この記事のポイント

1最新のGemma 4 31BをAMD製GPU（Radeon 8060S）で動作させることに成功
2生成速度10.7 t/sを達成し、ローカル環境でも実用的なレスポンスを実現
3llama.cppを活用することで、NVIDIA以外の環境でも最新AIの恩恵を受けられる

要約

Googleの最新オープンウェイトモデル「Gemma 4 31B」を、AMD製のGPU環境（ROCm）で動作させた実践記録です。使用されたハードウェアは最新の「AMD Ryzen AI MAX+ 395」および「Radeon 8060S (VRAM 32GB)」。推論エンジンにはllama.cppのROCmビルドが用いられました。4ビット量子化モデル（Q4_K_M）を使用し、全層をGPUにオフロードすることで、プロンプト処理速度 62.5 t/s、トークン生成速度 10.7 t/sという、実用的なパフォーマンスを達成しています。31B（310億パラメータ）という大規模なモデルながら、32GBのVRAMを活かしてコンテキストサイズ4096トークンを確保。Googleの最新モデルが、NVIDIA以外のハードウェアでもスムーズに動作することがベンチマークと共に示されました。動作には最新のllama.cpp（b8661以降）が必要です。

出典：Qiita AI の情報をもとにAIが要約

当サイトの考察

“

ヒナキラです！先週、NVIDIAがGemma 4を爆速化したニュースをお伝えしましたが、AMDユーザーも負けていません。今回の記事は、高価なNVIDIA GPUを使わなくても、最新鋭のGemma 4 31Bが「サクサク動く」ことを証明した貴重なレポートです。10.7 t/sという生成速度は、人間が読むスピードよりも速いため、日常的なチャットやコーディング支援には十分すぎる性能です。特に、VRAM 32GBを搭載したAMD環境で、31Bという「重めだが賢い」モデルが動くのは、ローカルAI派のクリエイターにとって朗報。副業で機密情報を扱う場合、ChatGPTにデータを送りたくない場面もありますよね。そんな時、Gemma 4のような高性能モデルをローカルで動かせれば、プライバシーを守りつつ高度な推論（企画立案や長文添削など）が可能です。ハードウェアの選択肢が広がることは、個人のAI活用コストを下げることに直結します。AMD派の皆さんは、ぜひllama.cppでの構築に挑戦してみてください！

よくある質問

QAMDのGPUでもAIは動きますか？

はい、今回の記事のように「ROCm」というプラットフォームとllama.cppなどのツールを組み合わせることで、最新のモデルも動かすことができます。

Q31Bというモデルのサイズは、どれくらいのPCが必要ですか？

4ビット量子化されたモデルであれば、約18GB以上のVRAM（ビデオメモリ）が必要です。今回の32GB搭載モデルなら余裕を持って動作します。

Qローカルで動かすメリットは何ですか？

月額料金がかからないこと、インターネット不要で動くこと、そして何より入力したデータが外部に送信されないためプライバシーが完全に守られることです。

用語解説

ROCm

AMDが提供するオープンなGPU計算プラットフォーム。NVIDIAのCUDAに相当するもので、AI処理に不可欠。

llama.cpp

一般的なPC（CPU/GPU）で大規模言語モデルを高速に動作させるためのオープンソースソフトウェア。

量子化（Quantization）

モデルのデータ量を圧縮する技術。精度を大きく落とさずに、少ないメモリでAIを動かせるようになる。

元記事を読む

※ この記事の要約・考察・FAQ・用語解説はAIによって生成されています。正確な情報は元記事をご確認ください。

この記事をシェアする

Post Share Bookmark LINE Threads

ヒナキラ

Hinakira AI News 編集長

AIツール・LLM・プロンプト活用術を中心に、個人クリエイター・副業者向けのAI最新情報を毎日お届けしています。AI歴3年以上、いろんな用途に実際に使って試してきた知見をもとに、読者が「自分ごと」として活用できる考察を心がけています。

ヒナキラのSNSアカウント

@hinakira_gpts hinakira_gpts_creator hinakira_gpts_creator

HinakiraAI News