joe/oproxy

ollamaのふりをしてポート転送をスイッチします。そして通信のモニタリングしたり転送先を切り替えたりするツールです。モデルがzedやclineで使えそうか調べる機能が付いてます。

Find a file

oproxy.py - The Strategic AI Proxy for Local LLMs

oproxy.py は、RTX 3060 (12GB) などのローカル環境で Cline や Zed といった AI Agent を極限まで効率よく運用するために設計された、高機能・対話型リバースプロキシです。

🛠 主要機能 (Features)

AIとの通信状況をコンソール上にリアルタイムで可視化します。

単なるモデル一覧ではありません。12GB VRAM という「戦場」を生き抜くための分析を行います。

Ollama の内部 API (/api/ps) を叩き、現在 VRAM にどのモデルがロードされ、何 GB 専有しているかを色付きで表示します。

AI Agent (Cline 等) が「なぜか思い通りに動かない」時の強力なデバッグツールです。

プロキシを再起動することなく、ポート番号（例: 11432, 11435）を直接打ち込むだけで、背後の Ollama インスタンスを瞬時に切り替えます。

コマンド	機能
`l`	モデルリストを表示（サイズに応じた色分け分析付き）
`ll`	量子化ビット数を含む、詳細なモデル分析を表示
`s`	現在の VRAM 使用状況（どのモデルが専有中か）を表示
`d`	[DUMP ON] 次のリクエスト・レスポンスを完全表示
`dd`	[DUMP OFF] ダンプ予約の解除
`数字`	ターゲットとする Ollama のポート番号を即時変更
`q`	プロキシの安全な終了

Agent対応の判断: d でダンプを見れば、モデルが正しく「ツール呼び出し（JSON）」を行っているか一目瞭然です。
30bモデルの運用: RTX 3060 で 30b クラスを動かす際、s と l の分析により「あ、これはQ3量子化じゃないと無理だ」といった戦略的な判断が可能になります。
長考への耐性: 600秒のタイムアウト設定により、巨大モデルの深い思考（Reasoning）を途中で遮断しません。