Ollama（またはLM Studio）の設定を少し変えて「複数のポート（窓口）で同時に起動する」ことで、別のモデルを同時に待機させ、切り替えなしで使う

結論から言うと、「ソフトを複数インストールする」必要はありません。

ひとつのOllama（またはLM Studio）の設定を少し変えて「複数のポート（窓口）で同時に起動する」ことで、別のモデルを同時に待機させ、切り替えなしで使うことが可能です。

ただし、ビデオメモリ（VRAM）の容量という物理的な壁があるため、その点も含めて解説します。

Ollamaは通常、バックグラウンドで1つの「サーバー」として動いていますが、環境変数を指定して「2つ目のサーバー」を別のポートで立ち上げることができます。

標準のOllamaはそのままにしておく（通常ポート 11434）。
コマンドプロンプト（またはPowerShell）を開く。
以下のコマンドを入力して実行する。
cmd set OLLAMA_HOST=127.0.0.1:11435 ollama serve
※これで、「11435」という別の窓口で2つ目のOllamaが動きます。
別のコマンドプロンプトを開き、2つ目のサーバーにモデルを読み込ませる。
cmd set OLLAMA_HOST=127.0.0.1:11435 ollama run llama3

これで、11434番ポートと11435番ポートで、別々のLLMが同時に動いている状態になります。

実は、最近のOllamaはわざわざサーバーを分けなくても、設定一つで複数のモデルを同時にロードできるようになっています。これが一番スマートな解決策です。

環境変数に以下を追加するだけです。

Windowsでの設定手順:

「システム環境変数の編集」を開く。
「環境変数」ボタンをクリック。
「システム環境変数」の「新規」で以下を作成。
- 変数名：OLLAMA_MAX_LOADED_MODELS / 値：2
- 変数名：OLLAMA_PARALLEL / 値：2
Ollamaを一度完全に終了（タスクトレイからも Quit）して再起動。

これだけで、1つのOllamaに対して複数のアプリから別々のモデルを呼び出しても、勝手に切り替わらずに両方メモリに載ったままになります。

LM Studioも「Local Server」機能を使えば、ポート番号を変えて複数立ち上げることが理屈上可能ですが、GUIアプリなので複数起動は少し面倒です。

おすすめ: LM Studioは「モデルの試作・検証用」として使い、常時起動して切り替えずに使いたいものは「Ollama」に任せる、という使い分けが一般的です。

「切り替えが面倒」を解消するために複数モデルを同時に動かす場合、PCのVRAM容量に注意してください。

VRAMが足りる場合（例：RTX 3090/4090など 24GB）:
7Bクラスのモデル（約5GB）を2つ同時に載せても余裕があります。サクサク動きます。
VRAMが足りない場合:
2つ目のモデルを読み込んだ瞬間、1つ目のモデルがメインメモリ（RAM）に追い出されるか、両方が共有メモリ（速度が激遅になる）に移動します。結果として、「切り替え時間はゼロになるが、回答速度がめちゃくちゃ遅くなる」という本末転倒なことが起こります。

いちいち切り替えるのが面倒な場合、以下の構成が最強です。

こうすると、ブラウザのタブを切り替えるだけで、ロード待ちなしで複数のLLMと同時に会話ができるようになります。ぜひ試してみてください。