Qwen 3.6はOpus, Sonnet 4.6をどこまで代替できるか
2026年 04月 16日 木曜日
結論
ローカルLLMのQwen 3.6(35B-A3B)をClaude Codeで使い、PRレビュースキルを利用して同一条件でPRレビューを実行した。
Opus/Sonnetが検出した3件の指摘のうち、Qwenが検出できたのは1件。Opus/Sonnetの方が総合的なレビューの質は高かったが、ローカルLLMでここまで動作するのはシンプルに凄い。
ただし、Opus/Sonnetが指摘しなかった運用観点の指摘をQwenは指摘しており、単純比較でOpus/Sonnetの方が優れているとは言い切れない。
環境
- MacBook Pro M4 Max RAM 64GB
- Qwen 3.6 35B-A3B (mxfp8)
- Ollama + Claude Code
- 比較対象: Claude Opus 4.6 + Sonnet 4.6
ollama launch claude --model qwen3.6:35b-a3b-mxfp8あとは通常のClaude Codeと同じ操作でレビューコマンドを実行。
やったこと
社内システムのPR(9ファイル・156行, Ruby on Railsでできたシステム)を、Opus/Sonnet と Qwen の両方で同じレビュースキルを使ってレビューした。
結果
Qwen 3.6は実利用メモリー40GB程度で動作。完遂した。
速度はだいたいQwen 15分、Opus/Sonnet 5分。クラウド側は並列でLLMの呼び出しができるので有利。
| 指摘 | Opus/Sonnet | Qwen |
|---|---|---|
pg_stat_statements 環境差分混入 |
検出 | 検出 |
| マイグレーションコメント不整合 | 検出 | — |
| デプロイ順序によるenum不整合 | 検出 | — |
| 破壊的データ変更の監査ログ未実装 | — | 検出 |
Qwenが見落とした2件は、いずれも複数ファイルを突き合わせて初めて気づける指摘。コミット途中の方針変更の痕跡や、Railsのenumの内部動作を踏まえた推論が必要だった。
逆に監査ログの指摘はOpus/Sonnetが拾わなかった運用観点で、視点の違いはある。
所感
- ネットワーク障害やAPI制限時・外部にデータを出せない環境でClaude Codeが問題なく動くようになりつつあると言える。
- RAM 40GBは万人向けではない。 M4 Max 64GBでもギリギリ。実行中はPC動作も重くなるのでサーバーに分離して動かすのが理想。
- ツール呼び出しは安定している。 3.5の方が安定すると聞いていたが、3.6でも問題なし。3.6の方が頭が良いので、作業全体としては安定。WebSearchなどのAnthropic側サーバーツールは実行できない。
- 出力 / 思考を大きくしないといけない作業がqwenは苦手そう。Qwenは大きなコンテキストの過去文脈を逐一圧縮しているため?
- 複数ファイルを跨いだ指摘が出てこなかった。
- サマリの出力が不完全だった。複数のエージェントの結果を統合する必要があるが、統合が中途半端もしくは検証が甘く偽陽性が多い。
- Opus/Sonnetの方がまとめるのが上手い。まとめる行為自体が複数の情報を跨いでいるからかも。
とはいえ、一昔前はClaude Codeのような重量級ツールはローカルで全く動かなかったし、動いてもツールが使えなかったりしたので、ここまで動くのは素晴らしいと感じた。
この記事をシェア