Qwen 3.6はOpus, Sonnet 4.6をどこまで代替できるか

2026年 04月 16日木曜日

結論

ローカルLLMのQwen 3.6（35B-A3B）をClaude Codeで使い、PRレビュースキルを利用して同一条件でPRレビューを実行した。

Opus/Sonnetが検出した3件の指摘のうち、Qwenが検出できたのは1件。Opus/Sonnetの方が総合的なレビューの質は高かったが、ローカルLLMでここまで動作するのはシンプルに凄い。

ただし、Opus/Sonnetが指摘しなかった運用観点の指摘をQwenは指摘しており、単純比較でOpus/Sonnetの方が優れているとは言い切れない。

ollama launch claude --model qwen3.6:35b-a3b-mxfp8

あとは通常のClaude Codeと同じ操作でレビューコマンドを実行。

社内システムのPR（9ファイル・156行, Ruby on Railsでできたシステム）を、Opus/Sonnet と Qwen の両方で同じレビュースキルを使ってレビューした。

Qwen 3.6は実利用メモリー40GB程度で動作。完遂した。

速度はだいたいQwen 15分、Opus/Sonnet 5分。クラウド側は並列でLLMの呼び出しができるので有利。

Qwenが見落とした2件は、いずれも複数ファイルを突き合わせて初めて気づける指摘。コミット途中の方針変更の痕跡や、Railsのenumの内部動作を踏まえた推論が必要だった。

逆に監査ログの指摘はOpus/Sonnetが拾わなかった運用観点で、視点の違いはある。

ネットワーク障害やAPI制限時・外部にデータを出せない環境でClaude Codeが問題なく動くようになりつつあると言える。
RAM 40GBは万人向けではない。 M4 Max 64GBでもギリギリ。実行中はPC動作も重くなるのでサーバーに分離して動かすのが理想。
ツール呼び出しは安定している。 3.5の方が安定すると聞いていたが、3.6でも問題なし。3.6の方が頭が良いので、作業全体としては安定。WebSearchなどのAnthropic側サーバーツールは実行できない。
出力 / 思考を大きくしないといけない作業がqwenは苦手そう。Qwenは大きなコンテキストの過去文脈を逐一圧縮しているため？
- 複数ファイルを跨いだ指摘が出てこなかった。
- サマリの出力が不完全だった。複数のエージェントの結果を統合する必要があるが、統合が中途半端もしくは検証が甘く偽陽性が多い。
- Opus/Sonnetの方がまとめるのが上手い。まとめる行為自体が複数の情報を跨いでいるからかも。

とはいえ、一昔前はClaude Codeのような重量級ツールはローカルで全く動かなかったし、動いてもツールが使えなかったりしたので、ここまで動くのは素晴らしいと感じた。

この記事をシェア