Ollama(またはLM Studio)の設定を少し変えて「複数のポート(窓口)で同時に起動する」ことで、別のモデルを同時に待機させ、切り替えなしで使う

結論から言うと、「ソフトを複数インストールする」必要はありません。

ひとつのOllama(またはLM Studio)の設定を少し変えて「複数のポート(窓口)で同時に起動する」ことで、別のモデルを同時に待機させ、切り替えなしで使うことが可能です。

ただし、ビデオメモリ(VRAM)の容量という物理的な壁があるため、その点も含めて解説します。


1. Ollama で複数モデルを同時に立ち上げる方法

Ollamaは通常、バックグラウンドで1つの「サーバー」として動いていますが、環境変数を指定して「2つ目のサーバー」を別のポートで立ち上げることができます。

手順(Windowsの場合)

  1. 標準のOllamaはそのままにしておく(通常ポート 11434)。
  2. コマンドプロンプト(またはPowerShell)を開く。
  3. 以下のコマンドを入力して実行する。
    cmd set OLLAMA_HOST=127.0.0.1:11435 ollama serve
    ※これで、「11435」という別の窓口で2つ目のOllamaが動きます。
  4. 別のコマンドプロンプトを開き、2つ目のサーバーにモデルを読み込ませる。
    cmd set OLLAMA_HOST=127.0.0.1:11435 ollama run llama3

これで、11434番ポートと11435番ポートで、別々のLLMが同時に動いている状態になります。


2. もっと簡単な方法:Ollamaの「並列実行設定」を使う

実は、最近のOllamaはわざわざサーバーを分けなくても、設定一つで複数のモデルを同時にロードできるようになっています。これが一番スマートな解決策です。

設定方法

環境変数に以下を追加するだけです。

  • OLLAMA_PARALLEL: 同時に動かしたいモデルの数(例: 2
  • OLLAMA_MAX_LOADED_MODELS: メモリに保持しておくモデルの数(例: 2

Windowsでの設定手順:

  1. 「システム環境変数の編集」を開く。
  2. 「環境変数」ボタンをクリック。
  3. 「システム環境変数」の「新規」で以下を作成。
    • 変数名:OLLAMA_MAX_LOADED_MODELS / 値:2
    • 変数名:OLLAMA_PARALLEL / 値:2
  4. Ollamaを一度完全に終了(タスクトレイからも Quit)して再起動。

これだけで、1つのOllamaに対して複数のアプリから別々のモデルを呼び出しても、勝手に切り替わらずに両方メモリに載ったままになります。


3. LM Studio の場合

LM Studioも「Local Server」機能を使えば、ポート番号を変えて複数立ち上げることが理屈上可能ですが、GUIアプリなので複数起動は少し面倒です。

  • おすすめ: LM Studioは「モデルの試作・検証用」として使い、常時起動して切り替えずに使いたいものは「Ollama」に任せる、という使い分けが一般的です。

4. 非常に重要な注意点:VRAM(ビデオメモリ)

「切り替えが面倒」を解消するために複数モデルを同時に動かす場合、PCのVRAM容量に注意してください。

  • VRAMが足りる場合(例:RTX 3090/4090など 24GB):
    7Bクラスのモデル(約5GB)を2つ同時に載せても余裕があります。サクサク動きます。
  • VRAMが足りない場合:
    2つ目のモデルを読み込んだ瞬間、1つ目のモデルがメインメモリ(RAM)に追い出されるか、両方が共有メモリ(速度が激遅になる)に移動します。結果として、「切り替え時間はゼロになるが、回答速度がめちゃくちゃ遅くなる」という本末転倒なことが起こります。

結論としてのおすすめ運用術

いちいち切り替えるのが面倒な場合、以下の構成が最強です。

  1. OllamaOLLAMA_MAX_LOADED_MODELS=2 以上の設定をする。
  2. Open WebUI(ブラウザで動くチャット画面)を導入する。
  3. Open WebUI上で、「モデルA」と「モデルB」のチャットタブを別々に開いておく。

こうすると、ブラウザのタブを切り替えるだけで、ロード待ちなしで複数のLLMと同時に会話ができるようになります。ぜひ試してみてください。

タイトルとURLをコピーしました