結論から言うと、「ソフトを複数インストールする」必要はありません。
ひとつのOllama(またはLM Studio)の設定を少し変えて「複数のポート(窓口)で同時に起動する」ことで、別のモデルを同時に待機させ、切り替えなしで使うことが可能です。
ただし、ビデオメモリ(VRAM)の容量という物理的な壁があるため、その点も含めて解説します。
1. Ollama で複数モデルを同時に立ち上げる方法
Ollamaは通常、バックグラウンドで1つの「サーバー」として動いていますが、環境変数を指定して「2つ目のサーバー」を別のポートで立ち上げることができます。
手順(Windowsの場合)
- 標準のOllamaはそのままにしておく(通常ポート 11434)。
- コマンドプロンプト(またはPowerShell)を開く。
- 以下のコマンドを入力して実行する。
cmd set OLLAMA_HOST=127.0.0.1:11435 ollama serve
※これで、「11435」という別の窓口で2つ目のOllamaが動きます。 - 別のコマンドプロンプトを開き、2つ目のサーバーにモデルを読み込ませる。
cmd set OLLAMA_HOST=127.0.0.1:11435 ollama run llama3
これで、11434番ポートと11435番ポートで、別々のLLMが同時に動いている状態になります。
2. もっと簡単な方法:Ollamaの「並列実行設定」を使う
実は、最近のOllamaはわざわざサーバーを分けなくても、設定一つで複数のモデルを同時にロードできるようになっています。これが一番スマートな解決策です。
設定方法
環境変数に以下を追加するだけです。
OLLAMA_PARALLEL: 同時に動かしたいモデルの数(例:2)OLLAMA_MAX_LOADED_MODELS: メモリに保持しておくモデルの数(例:2)
Windowsでの設定手順:
- 「システム環境変数の編集」を開く。
- 「環境変数」ボタンをクリック。
- 「システム環境変数」の「新規」で以下を作成。
- 変数名:
OLLAMA_MAX_LOADED_MODELS/ 値:2 - 変数名:
OLLAMA_PARALLEL/ 値:2
- 変数名:
- Ollamaを一度完全に終了(タスクトレイからも Quit)して再起動。
これだけで、1つのOllamaに対して複数のアプリから別々のモデルを呼び出しても、勝手に切り替わらずに両方メモリに載ったままになります。
3. LM Studio の場合
LM Studioも「Local Server」機能を使えば、ポート番号を変えて複数立ち上げることが理屈上可能ですが、GUIアプリなので複数起動は少し面倒です。
- おすすめ: LM Studioは「モデルの試作・検証用」として使い、常時起動して切り替えずに使いたいものは「Ollama」に任せる、という使い分けが一般的です。
4. 非常に重要な注意点:VRAM(ビデオメモリ)
「切り替えが面倒」を解消するために複数モデルを同時に動かす場合、PCのVRAM容量に注意してください。
- VRAMが足りる場合(例:RTX 3090/4090など 24GB):
7Bクラスのモデル(約5GB)を2つ同時に載せても余裕があります。サクサク動きます。 - VRAMが足りない場合:
2つ目のモデルを読み込んだ瞬間、1つ目のモデルがメインメモリ(RAM)に追い出されるか、両方が共有メモリ(速度が激遅になる)に移動します。結果として、「切り替え時間はゼロになるが、回答速度がめちゃくちゃ遅くなる」という本末転倒なことが起こります。
結論としてのおすすめ運用術
いちいち切り替えるのが面倒な場合、以下の構成が最強です。
- Ollama に
OLLAMA_MAX_LOADED_MODELS=2以上の設定をする。 - Open WebUI(ブラウザで動くチャット画面)を導入する。
- Open WebUI上で、「モデルA」と「モデルB」のチャットタブを別々に開いておく。
こうすると、ブラウザのタブを切り替えるだけで、ロード待ちなしで複数のLLMと同時に会話ができるようになります。ぜひ試してみてください。
