Qwen 3.6はOpus, Sonnet 4.6をどこまで代替できるか

結論

ローカルLLMのQwen 3.6(35B-A3B)をClaude Codeで使い、PRレビュースキルを利用して同一条件でPRレビューを実行した。

Opus/Sonnetが検出した3件の指摘のうち、Qwenが検出できたのは1件。Opus/Sonnetの方が総合的なレビューの質は高かったが、ローカルLLMでここまで動作するのはシンプルに凄い。

ただし、Opus/Sonnetが指摘しなかった運用観点の指摘をQwenは指摘しており、単純比較でOpus/Sonnetの方が優れているとは言い切れない。

環境

  • MacBook Pro M4 Max RAM 64GB
  • Qwen 3.6 35B-A3B (mxfp8)
  • Ollama + Claude Code
  • 比較対象: Claude Opus 4.6 + Sonnet 4.6
ollama launch claude --model qwen3.6:35b-a3b-mxfp8

あとは通常のClaude Codeと同じ操作でレビューコマンドを実行。

やったこと

社内システムのPR(9ファイル・156行, Ruby on Railsでできたシステム)を、Opus/Sonnet と Qwen の両方で同じレビュースキルを使ってレビューした。

結果

Qwen 3.6は実利用メモリー40GB程度で動作。完遂した。

速度はだいたいQwen 15分、Opus/Sonnet 5分。クラウド側は並列でLLMの呼び出しができるので有利。

指摘 Opus/Sonnet Qwen
pg_stat_statements 環境差分混入 検出 検出
マイグレーションコメント不整合 検出
デプロイ順序によるenum不整合 検出
破壊的データ変更の監査ログ未実装 検出

Qwenが見落とした2件は、いずれも複数ファイルを突き合わせて初めて気づける指摘。コミット途中の方針変更の痕跡や、Railsのenumの内部動作を踏まえた推論が必要だった。

逆に監査ログの指摘はOpus/Sonnetが拾わなかった運用観点で、視点の違いはある。

所感

  • ネットワーク障害やAPI制限時・外部にデータを出せない環境でClaude Codeが問題なく動くようになりつつあると言える。
  • RAM 40GBは万人向けではない。 M4 Max 64GBでもギリギリ。実行中はPC動作も重くなるのでサーバーに分離して動かすのが理想。
  • ツール呼び出しは安定している。 3.5の方が安定すると聞いていたが、3.6でも問題なし。3.6の方が頭が良いので、作業全体としては安定。WebSearchなどのAnthropic側サーバーツールは実行できない。
  • 出力 / 思考を大きくしないといけない作業がqwenは苦手そう。Qwenは大きなコンテキストの過去文脈を逐一圧縮しているため?
    • 複数ファイルを跨いだ指摘が出てこなかった。
    • サマリの出力が不完全だった。複数のエージェントの結果を統合する必要があるが、統合が中途半端もしくは検証が甘く偽陽性が多い。
    • Opus/Sonnetの方がまとめるのが上手い。まとめる行為自体が複数の情報を跨いでいるからかも。

とはいえ、一昔前はClaude Codeのような重量級ツールはローカルで全く動かなかったし、動いてもツールが使えなかったりしたので、ここまで動くのは素晴らしいと感じた。

この記事をシェア

2020-2026
弊社では、一緒に会社を面白くしてくれる仲間を募集しています。
お気軽にお問い合わせください!
P.S. よろしければこちらもどうぞ
新明工業クラシックカーレストア blog — クラシックカーのレストアのお仕事の一部を公開しています。
新明工業コンベア blog — コンベアに関する技術情報を発信しています。