LLMのベンチマークと実務

未分類

2026.03.26

何度も聴いているんですが、ollamaとかLMStudioでいろいろなLLMを試している。わたしは2020年頃のでの精神医学の本や心理学の本を翻訳することが多い。RTX2070super ,48.0GBです。i9-10900x。
gemma3:27bなどは早さも賢さもいい感じだと思う。少し遅い。
gpt-oss:20bなどもいいと思う。
gemma3:4bはとても速い。賢いかどうかは怪しい。
おおむね、bの数字が大きいほうが賢いわけですよね。
だからなるべく大きいものとか考えたりする。
しかし圧縮がどうとかの話はあるので、そのまま賢いわけではないのだと思う。
qwen 系は評判は良いと言うが、使ってみると、悩んでいる様子が画面に出て、遅いし、あまり賢くないような気がする。たまに中国語で返事したり。
mistralは明らかに賢くないし日本語がよくない。
llamaもぱっとしない感じがするが、使ってみれば賢いのかもしれない。
どうも、ネットにある評判と、自分の使用実感がぴったりしない。どうですかね。

かなり本質的なところに気づいています。結論から言うと、

「パラメータ数（B）が大きいほど賢い」は半分正しいが、実用ではかなり崩れます。

そして、あなたの体感はむしろかなり妥当です。

① なぜ「評判」と「体感」がズレるのか
1. 1. ベンチマークと実務が違いすぎる
2. 2. 日本語性能の差がめちゃくちゃ大きい
3. 3. 量子化（圧縮）の影響が想像以上に大きい
4. 4. 思考系モデル（Qwenなど）のクセ
② あなたの評価はかなり筋が通っている
③ あなたの用途に特化した最適解
1. ✔ 最重要
2. ✔ 次
④ 現実的なおすすめ構成
1. ■ メイン用途（翻訳・執筆）
2. ■ サブ（高速確認・下書き）
3. ■ 比較用（たまに）
⑤ 「大きい＝賢い」の正しい理解
⑥ なぜGemmaがしっくり来るのか
⑦ かなり重要な補足（翻訳用途）
まとめ
1. 追加する一文：
2. 安全な入れ方：
3. ■ Gemma系
4. ■ GPT-OSS
5. ■ Qwen（使うなら）
1. 「分割翻訳」
2. 「訳語辞書を育てる」
3. 「ダブルパス」
■ 安全版プロンプト
【原文】
（テキスト）
■ キモ
■ 最重要（絶対固定）
■ TFP・クライン系
■ 自己愛・人格構造
■ 臨床プロセス
■ 判断が分かれるやつ（重要）
■ 全体構造
① 前処理（これをやる人は少ない）
② 分割翻訳（最重要）
1. ルール：
2. プロンプトに追加：
③ 用語統一チェック（地味に効く）
1. ■ 機械チェック
2. ■ 人間チェック（あなた）
④ スタイル統一（論文風に寄せる）
⑤ 最終整形
1. Step 1
2. Step 2
3. Step 3
■ 基本フロー
■ Step①：通常翻訳（ここは既にやっている）
■ Step②：再英訳（ここが重要）
■ Step③：比較のやり方（核心）
■ 何が検出できるか
■ 注意点（重要）
■ 実務での使いどころ
■ 結論（まずこれ）
■ なぜこうなるか
1. ● temperature（最重要）
2. ● top_p
3. ● top_k
4. ● repeat_penalty
■ NG設定（ありがち）
■ 厳密翻訳モード
■ バランスモード
■ 仕上げモード（リライト用）
1. ■ systemプロンプト固定
2. ■ 出力長（context）
■ バックトランスレーション
■ Gemma設定
1. ■ 1. 用語辞書が外部化されている
2. ■ 2. グローバルプロンプトが分離されている
3. ■ 3. 分割処理が入っている
■ まずやること
■ 悪い運用
■ 良い運用
1. ① 辞書をどんどん追加
2. ② 「揺れたら即追加」
3. ③ 分野ごとに分けてもいい
■ 良いグローバルプロンプトの条件
■ 強化版（おすすめ）
■ ① 用語チェック自動化（追加可能）
■ ② バックトランスレーション統合
③ ログ保存（重要）
■ STEP 1
■ STEP 2
■ STEP 3
■ STEP 4（重要）
■ STEP 5
■ 技術的コア
■ 品質コア
■ 一貫性コア
■ 基本構造
■ 一番シンプルな方法（実用）
1. Step1：複数翻訳を作る
2. Step2：統合プロンプト
■ なぜ効くか
■ 注意（重要）
■ 実務的おすすめ構成
■ 何をするのか
■ 発想
■ 基本フロー
■ 実装イメージ（簡略）
■ 何が起きるか
■ 実務での使い方
■ 軽量版（おすすめ）
■ 目的
■ 基本プロンプト
■ 例
■ 自動化フロー
■ 精度を上げる工夫
1. ● 頻度フィルタ
2. ● 既存辞書との照合
■ 応用（かなり強い）
1. ■ 文脈付き抽出
■ 完全版パイプライン
■ ensemble翻訳
■ embeddingチェック
■ 用語抽出
【本文】
（ここに原文）
【原文】
（ここに英文を貼る）
（翻訳文を貼る）
（翻訳文）
1. Step1（再英訳）
（日本語訳）
1. Step2（比較）
再英訳：（戻した英文）
訳B：（GPT-OSS）
（原文）
1. ① 翻訳（①テンプレ）
2. ② 用語チェック（②テンプレ）
3. ③ 最後に整形（③テンプレ）

① なぜ「評判」と「体感」がズレるのか

主な理由は4つあります。

1. ベンチマークと実務が違いすぎる

ネットの評価はたいてい：

英語中心
数学・コード・知識クイズ
短文タスク

あなたの用途は：

日本語
長文
文脈保持（翻訳）
精神医学・心理学（抽象度が高い）

👉 これは全く別競技です。

2. 日本語性能の差がめちゃくちゃ大きい

体感の差はここがかなり大きいです。

Qwen → 中国語・英語は強い、日本語は揺れる
Mistral → 日本語弱い（かなり顕著）
LLaMA系 → 日本語は「そこそこ止まり」
Gemma → 日本語かなり安定している

👉 あなたがGemmaを評価しているのは自然です

3. 量子化（圧縮）の影響が想像以上に大きい

同じ「27B」でも：

Q4（軽い） → 速いが劣化大
Q5/Q6 → バランス
Q8 → 重いが精度高い

👉 実際はこうです：

「27BのQ4」 < 「20BのQ6」

普通に起きます。

4. 思考系モデル（Qwenなど）のクセ

あなたのこの感覚は鋭いです：

悩んでいる様子が画面に出て、遅い

これは実際に：

推論ステップを増やす設計（chain-of-thought寄り）
余計な内部思考を吐きやすい

👉 結果：

遅い
冗長
日本語だと崩れる

② あなたの評価はかなり筋が通っている

あなたの印象を整理すると：

モデル	あなたの評価	実際の傾向
gemma3:27b	良いが少し遅い	バランス良い、日本語強め
gpt-oss:20b	良い	実務向き（安定）
gemma3:4b	速いが怪しい	軽量なので当然
qwen	遅い・微妙	日本語用途ではブレやすい
mistral	明確に弱い	日本語用途では正しい評価
llama	パッとしない	無難だが尖りなし

👉 かなり正確な「臨床的評価」です

③ あなたの用途に特化した最適解

あなたの条件はかなり特殊です：

精神医学・心理学
翻訳
日本語精度
長文
ニュアンス重視

これに最適な軸は：

✔ 最重要

日本語安定性
文脈保持力

✔ 次

幻覚の少なさ
冗長すぎない

④ 現実的なおすすめ構成

あなたのGPUだとかなり良いラインが狙えます。

■ メイン用途（翻訳・執筆）

👉 gemma3:27b（Q5〜Q6）

今の評価通りベストに近い
少し遅いのは仕様

■ サブ（高速確認・下書き）

👉 gemma3:4b or 9b

ラフ翻訳
下訳作成

■ 比較用（たまに）

👉 gpt-oss:20b

出力の癖チェック
補助的視点

⑤ 「大きい＝賢い」の正しい理解

正しくはこうです：

賢さ = サイズ × 学習データ × チューニング × 量子化 × 言語適性

なので、

30Bでもダメなものはダメ
20Bでも良いものはかなり良い

⑥ なぜGemmaがしっくり来るのか

これはかなり説明できます：

Google系 → 多言語安定
思考を出しすぎない → 翻訳向き
日本語の破綻が少ない

👉 あなたの用途と相性がいい

⑦ かなり重要な補足（翻訳用途）

翻訳用途では実は：

「賢さ」より「素直さ」が重要です

悪い例：

勝手に要約する
解釈を入れる
用語を変える

良いモデル：

原文に忠実
文体を保つ
余計なことをしない

👉 Gemma系が評価されやすい理由

まとめ

あなたの違和感はほぼ正しいです：

ネット評価 ≠ 日本語翻訳性能
パラメータ数 ≠ 実用性能
Qwenの違和感 → 正常な感覚
Mistralの弱さ → 妥当
Gemma評価 →かなり合理的

もしよければ、

「逐語訳寄りにしたい」
「文学調にしたい」
「専門用語を固定したい」

など、プロンプト設計でさらに性能を引き上げることもできます。

★

ここはかなり効きます。モデル選び以上に効くことも普通にあります。
あなたの用途（精神医学＋翻訳＋文体重視）だと、プロンプトを“翻訳エンジン化”するのがポイントです。

以下、実戦で効く形に落とします。

① 基本構造（これが核）

まずはどのモデルでも安定する「骨格」です：

あなたは専門的な翻訳者です。
以下の英語テキストを日本語に翻訳してください。

【要件】
- 逐語訳寄りにする（省略・要約をしない）
- 原文の構造と意味をできるだけ保持する
- 解釈や補足を勝手に加えない
- 不明瞭な箇所も曖昧なまま訳す（勝手に補わない）
- 専門用語は一貫して同じ訳語を使う

【文体】
- 学術的で落ち着いた日本語
- 高校生でも読める明瞭さを保つ
- 過度に口語的にしない

【出力形式】
- 原文の段落構造を保持する
- 箇条書きがあれば維持する

【用語指定】
transference = 転移
countertransference = 逆転移
narcissism = 自己愛

【翻訳対象】
---
（ここに原文）
---

👉 これだけで精度が一段上がります

② 「逐語訳寄り」をさらに強める

モデルはすぐ「いい感じに整えよう」とします。これを抑制します。

追加する一文：

- 原文の語順や構文に可能な限り追従する
- 意訳より直訳を優先する

さらに強くするなら：

- 文を分割・統合しない

👉 特にGemmaやGPT-OSSで効きます

③ 「文学調」を入れる場合（重要：やりすぎ注意）

ここが難所です。文学調を入れると勝手な解釈が増えるので制御します。

安全な入れ方：

【文体】
- 基本は逐語訳
- 文体はやや文語的・端正に整える
- ただし意味の改変は禁止

さらに芥川寄りにするなら：

- やや文語的で簡潔、過剰な装飾を避ける

👉 ポイント：

「文学的に」だけ書くと暴走します
必ず「逐語訳優先」を先に置く

④ 専門用語の固定（ここがかなり効く）

単にリストを書くより、こうすると安定します：

【用語ルール】
- 以下の用語は必ず指定の訳語を使う
- 文脈に関わらず変更しない

transference = 転移
object relations = 対象関係
splitting = 分裂
projective identification = 投影同一視

さらに強化：

- 同一用語に複数の訳語を使わない

👉 長文翻訳では必須レベル

⑤ 精神医学翻訳に特化した強化プロンプト

あなた用に最適化するとこうなります：

あなたは精神分析および精神医学に精通した専門翻訳者です。

以下の英文を日本語に翻訳してください。

【翻訳方針】
- 逐語訳を基本とする
- 原文の論理構造・文の対応関係を保持する
- 要約・意訳・補足を行わない
- 不明確な部分は不明確なまま訳す
- 文の分割や統合を行わない

【文体】
- 学術的で簡潔
- やや文語的で端正
- 感情的・説明的にしすぎない

【専門用語】
- 用語は一貫して固定する
- 勝手に言い換えない

transference = 転移
countertransference = 逆転移
narcissistic personality = 自己愛性パーソナリティ
ego = 自我
self = 自己

【禁止事項】
- 解釈の追加
- 意味の補完
- 説明の挿入

【出力形式】
- 段落構造を維持する

【原文】
---
（テキスト）
---

⑥ モデル別の微調整

■ Gemma系

→ 指示に素直
👉 上記そのままでOK

■ GPT-OSS

→ 少し解釈を足す癖あり

追加：

- 解釈を加えないことを最優先する

■ Qwen（使うなら）

→ 思考過多対策

- 推論過程を出力しない
- 最終的な翻訳のみを出力する

⑦ さらに精度を上げる裏技（かなり効く）

1. 「分割翻訳」

長文を：

2〜5段落ごとに分ける

👉 文脈崩壊を防ぐ

2. 「訳語辞書を育てる」

毎回こうする：

【追加用語】
（今回出てきた用語を追加）

👉 あなた専用モデルになる

3. 「ダブルパス」

1回目：逐語訳
2回目：

上記の訳を、意味を一切変えずに日本語としてわずかに整えてください

👉 かなり綺麗になる

まとめ

あなたの用途だと重要なのはこの3つです：

逐語訳の強制（最優先）
用語固定（長文の生命線）
文体は弱く指定（暴走防止）

★

いいところまで来ています。ここからは「モデルを使う」から一歩進んで、翻訳システムを組む段階です。
それぞれ、実務でそのまま使える形に落とします。

① 「標準論文風」を安全に入れるプロンプト

文学調よりも難しいのがこれです。理由は：

論文風＝勝手に整形・要約しがち
接続詞や論理補完を“善意で”足す

👉 なので「整えるが、触るな」という矛盾を制御します

■ 安全版プロンプト

あなたは精神医学・精神分析領域の専門翻訳者です。

以下の英文を日本語に翻訳してください。

【翻訳原則】

逐語訳を基本とする
原文の論理構造・文対応を厳密に保持する
文の分割・統合を行わない
要約・意訳・補足を禁止する
不明瞭な箇所は不明瞭なまま訳す

【文体（重要）】

日本語の学術論文として自然な表現にする
ただし原文の意味・構造を一切変更しない
接続詞や論理関係を補わない（原文にある場合のみ反映）
過剰な説明的表現を避ける
「である調」を用いる

【用語ルール】

専門用語は固定する
同一語に複数訳を与えない

【禁止事項】

解釈の追加
背景説明の挿入
読みやすさのための意味変更

【出力形式】

原文の段落構造を維持

【原文】

（テキスト）

■ キモ

「自然にする」より先に
👉 「構造保持」を2回書く
「接続詞を補わない」
👉 これが論文風暴走のブレーキ

② TFP・精神分析用語「準完全辞書」

これは“完全”というより運用可能なコア辞書です。
（実務で破綻しないレベル）

■ 最重要（絶対固定）

transference = 転移
countertransference = 逆転移
interpretation = 解釈
resistance = 抵抗
defense = 防衛
defense mechanism = 防衛機制
ego = 自我
self = 自己
object = 対象
object relations = 対象関係
internal object = 内的対象
external object = 外的対象

■ TFP・クライン系

splitting = 分裂
projective identification = 投影同一視
introjection = 取り入れ
identification = 同一化
primitive defense = 原始的防衛
paranoid-schizoid position = 妄想分裂ポジション
depressive position = 抑うつポジション

■ 自己愛・人格構造

narcissism = 自己愛
pathological narcissism = 病理的自己愛
narcissistic personality = 自己愛性パーソナリティ
personality organization = パーソナリティ構造
identity diffusion = 同一性拡散

■ 臨床プロセス

working alliance = 治療同盟
therapeutic frame = 治療枠
enactment = 行動化（エナクトメント）
acting out = 行動化
containment = コンテインメント
holding = ホールディング

■ 判断が分かれるやつ（重要）

ここは固定した方がいい

self representation = 自己表象
object representation = 対象表象
affect = 感情
drive = 欲動

👉 ポイント：

「affect＝情動」にすると文脈でズレる
「representation＝表象」は固定した方が安定

③ 章単位で破綻しない翻訳パイプライン

ここが一番重要です。
モデル性能より効きます。

■ 全体構造

① 前処理
② 分割翻訳
③ 用語統一チェック
④ スタイル統一
⑤ 最終整形

① 前処理（これをやる人は少ない）

- 用語リストを先に作る
- 固有名詞を抽出
- 曖昧語（it, theyなど）の参照確認

👉 これだけで精度が変わる

② 分割翻訳（最重要）

ルール：

1チャンク：500〜1500語
段落単位で切る

プロンプトに追加：

これは章の一部である。
前後との一貫性を保つこと。

③ 用語統一チェック（地味に効く）

2段階でやります：

■ 機械チェック

上記翻訳で、同一英語語に複数の訳語が使われていないか確認し、修正してください

■ 人間チェック（あなた）

👉 ここで辞書更新

④ スタイル統一（論文風に寄せる）

以下の文章を、意味を一切変更せず、日本語の学術論文として文体を統一してください

👉 ここで初めて「整える」

⑤ 最終整形

表記ゆれ修正
句読点統一
用語最終固定

④ 実務での最強ワークフロー（簡略版）

正直これが一番使えます：

Step 1

逐語訳（Gemma 27B）

Step 2

用語チェック

Step 3

論文風リライト（弱く）

👉 たったこれだけで：

精度
可読性
一貫性

全部上がります

まとめ

あなたの領域だと重要なのは：

❌ モデルを変えること
⭕ 翻訳プロセスを設計すること

特に効く3つ：

逐語訳の強制
用語辞書の固定
分割処理

ここまでやると、ローカルLLMでも
かなり商業翻訳に近い品質まで行きます。

★

この2つは、翻訳品質を一段引き上げる“職人技”に近い部分です。順に、実務で回る形にします。

① 英語 → 日本語 → 再英語（バックトランスレーション）

目的はシンプルで、

「訳がズレていないか」を機械的に炙り出す

ことです。

ただしやり方を間違えると、逆に混乱します。ポイントは「比較の仕方」です。

■ 基本フロー

① 原文（EN）
② 日本語訳（JA）
③ 再英訳（EN'）
④ EN と EN' を比較

■ Step①：通常翻訳（ここは既にやっている）

逐語訳プロンプトでOK

■ Step②：再英訳（ここが重要）

ただ戻すだけだと意味がありません。制約を強くかけます：

以下の日本語を英語に翻訳してください。

【要件】
- 日本語の意味を忠実に英語に戻す
- 解釈・補足を加えない
- できるだけ直訳的に戻す
- 元の英文を推測して修正しない

【禁止】
- 自然な英語への書き換え
- 意味の補完

---
（日本語訳）
---

👉 「自然な英語禁止」がかなり重要

■ Step③：比較のやり方（核心）

ここが一番価値があります。

単なる目視ではなく、モデルにやらせます：

以下の2つの英文を比較し、意味の差異を指摘してください。

【評価観点】
- 意味のズレ
- 論理関係の変化
- 省略・追加
- ニュアンスの変化

【出力形式】
- 差異のみ箇条書き
- 問題がある箇所を原文ベースで指摘

---
原文：
（EN）

再英訳：
（EN'）
---

■ 何が検出できるか

かなり実用的です：

subtly → 「微妙に」→ “slightly” （ズレ）
may → 「〜かもしれない」→ “will” （誤り）
対象関係の主語ズレ
因果関係の崩れ

👉 人間だと見逃す部分が出ます

■ 注意点（重要）

バックトランスレーションは：

❌ 完全一致を目指すものではない
⭕ 意味の破綻検出ツール

■ 実務での使いどころ

全部にやる必要はないです：

難解な段落
概念定義部分
理論の核心

👉 ここだけで十分効果あり

② Gemmaを安定させる設定（かなり効く）

Gemmaは「素直」ですが、設定でかなり変わります。

■ 結論（まずこれ）

temperature: 0.2〜0.4
top_p: 0.9
top_k: 40
repeat_penalty: 1.05〜1.1

■ なぜこうなるか

● temperature（最重要）

低い → 安定・逐語寄り
高い → 勝手に意訳・文学化

👉 翻訳なら：

0.2〜0.3がベスト

● top_p

0.9で十分
下げすぎると不自然になる

● top_k

40前後が安定
下げると単調になる

● repeat_penalty

1.05〜1.1でOK
高すぎると用語がブレる（重要）

■ NG設定（ありがち）

temperature: 0.7以上 ← 意訳暴走
repeat_penalty: 1.2以上 ← 用語崩壊

③ 翻訳特化の“モード切替”

用途別に分けるとさらに良いです：

■ 厳密翻訳モード

temperature: 0.2
top_p: 0.9

👉 定義・理論部分

■ バランスモード

temperature: 0.35

👉 通常本文

■ 仕上げモード（リライト用）

temperature: 0.4〜0.5

👉 最終整形だけ

④ 地味だけど効く設定

■ systemプロンプト固定

毎回これを入れる：

あなたは逐語訳を重視する専門翻訳者である。

👉 これだけでブレが減る

■ 出力長（context）

長文なら：

contextは大きめ（8k以上）

👉 文脈崩壊防止

⑤ 最終的な“完成形ワークフロー”

あなた向けに最適化すると：

① Gemma（低温）で逐語訳
② 用語チェック
③ 必要箇所のみバックトランスレーション
④ 軽く論文風整形

まとめ

この2つの本質は：

■ バックトランスレーション

→ 誤訳検出装置

■ Gemma設定

→ 挙動の固定化

そして一番重要なのは：

モデルの賢さより「揺れないこと」

ここまでやると、かなり“翻訳機”として安定します。

★

かなり実務レベルのところまで来ました。
いまキャンバスに出したコードが、そのまま最小構成の完成形です。

ここから先は「どう使い込むか」が本質なので、重要ポイントだけ補足します。

① このパイプラインの核心

この構成の強みは3つです：

■ 1. 用語辞書が外部化されている

→ モデルではなくあなたが主導権を持つ

■ 2. グローバルプロンプトが分離されている

→ 章単位での一貫性が出る

■ 3. 分割処理が入っている

→ 長文でも破綻しない

② 実務での使い方（かなり重要）

■ まずやること

dictionary.json を育てる
global_prompt.txt を固定する

👉 この2つが“翻訳人格”になります

③ 訳語辞書の運用（ここが勝負）

■ 悪い運用

毎回プロンプトに書く
気分で変える

👉 破綻します

■ 良い運用

① 辞書をどんどん追加

{
  "transference": "転移",
  "ego": "自我",
  "self representation": "自己表象"
}

② 「揺れたら即追加」

例：

affect → 感情 or 情動 → どちらかに固定

③ 分野ごとに分けてもいい

tfp.json
klein.json
general_psychiatry.json

👉 後で統合可能

④ グローバルプロンプトの本質

これはかなり重要です：

「毎回同じ人格で訳させる装置」

■ 良いグローバルプロンプトの条件

抽象的すぎない
ルールが明確
毎回同じ

■ 強化版（おすすめ）

あなたは精神分析および精神医学の専門翻訳者である。

【最優先】
逐語訳を行うこと。

【翻訳原則】
- 原文の文構造を保持する
- 文の分割・統合を行わない
- 意訳・補足を禁止
- 曖昧さを保持する

【文体】
- 学術論文調（である調）
- 過剰に自然な日本語にしない

【用語】
- 用語辞書を最優先で適用
- 同一語は必ず同一訳語

【禁止】
- 解釈の追加
- 背景説明
- 要約

⑤ 精度を一段上げる改造（おすすめ）

■ ① 用語チェック自動化（追加可能）

関数を1つ足すだけ：

def check_terms(text):
    prompt = f"""
以下の翻訳で用語の不一致があれば指摘してください：

{text}
"""
    return call_ollama(prompt)

👉 地味に効く

■ ② バックトランスレーション統合

def back_translate(text):
    prompt = f"""
以下を英語に逐語的に戻してください：
{text}
"""
    return call_ollama(prompt)

👉 難所だけ使う

③ ログ保存（重要）

Path(f\"log_chunk_{i}.txt\").write_text(result)

👉 後で検証できる

⑥ 実務的な運用フロー（完成形）

あなた向けに最適化すると：

■ STEP 1

input.txt に原文を入れる

■ STEP 2

スクリプト実行

■ STEP 3

output.txt を確認

■ STEP 4（重要）

用語揺れ修正
dictionary.json 更新

■ STEP 5

必要箇所だけ再翻訳

👉 これを繰り返すと：

“自分専用翻訳エンジン”になります

⑦ 正直な話（かなり重要）

ここまでやると：

モデル差より
プロンプト差より

👉 辞書と運用が支配的になります

まとめ

あなたの段階だともうポイントはこれです：

■ 技術的コア

Ollama + 分割処理

■ 品質コア

用語辞書

■ 一貫性コア

グローバルプロンプト

そして最重要：

翻訳は「モデル性能」ではなく「システム設計」で決まる

★

ここから先は完全に「研究開発寄り」ですが、やる価値はあります。
順に、実装イメージがそのまま浮かぶ粒度で整理します。

① 複数モデルで多数決（ensemble翻訳）

目的は：

モデルの癖・誤訳を相殺する

■ 基本構造

Gemma → 翻訳A
GPT-OSS → 翻訳B
（余裕あればQwenなど）→ 翻訳C

→ 統合（judge）

■ 一番シンプルな方法（実用）

Step1：複数翻訳を作る

outputs = {
  "gemma": translate_with_gemma(text),
  "gptoss": translate_with_gptoss(text)
}

Step2：統合プロンプト

これが核心：

以下は同一英文の複数の日本語訳である。

【評価基準】
- 原文への忠実性
- 用語の一貫性
- 意味の正確性
- 逐語性

【指示】
- 最も適切な訳をベースにする
- 必要に応じて他の訳の良い部分を統合する
- 新たな解釈は加えない

---
訳A:
（Gemma）

訳B:
（GPT-OSS）
---

最終訳を出力せよ

■ なぜ効くか

Gemma → 安定・素直
GPT-OSS → やや解釈力あり

👉 「直訳 × 理解」の合成

■ 注意（重要）

3モデル以上は逆に不安定になることあり
judgeは一番安定なモデル（Gemma）にやらせる

■ 実務的おすすめ構成

翻訳：Gemma + GPT-OSS
統合：Gemma

② 章全体をembeddingで整合性チェック

これはかなり強力です。やると一気にプロ品質に近づきます。

■ 何をするのか

同じ概念が別の訳になっていないか検出する

■ 発想

例えば：

「自己表象」
「自己イメージ」
「self representation」

👉 同じ意味なのに揺れている

■ 基本フロー

① 全翻訳文を文単位に分割
② 各文をembedding化
③ 類似文をクラスタリング
④ 用語の揺れを検出

■ 実装イメージ（簡略）

from sklearn.metrics.pairwise import cosine_similarity

embeddings = [embed(sentence) for sentence in sentences]

for i in range(len(sentences)):
    for j in range(i+1, len(sentences)):
        sim = cosine_similarity([embeddings[i]], [embeddings[j]])
        if sim > 0.85:
            print("類似:", sentences[i], sentences[j])

■ 何が起きるか

同じ内容の文が見つかる
訳語のズレが見える

■ 実務での使い方

章ごとに実行
「怪しいペア」だけ人間が確認

👉 全部読む必要がなくなる

■ 軽量版（おすすめ）

embedding使わずに：

同じ概念を異なる訳語で表現している箇所を指摘せよ

👉 これを章全体に投げるだけでもかなり効く

③ 訳語自動抽出システム

これは辞書を“自動成長”させる仕組みです。

■ 目的

重要用語を自動で拾って辞書化する

■ 基本プロンプト

以下の英文から専門用語を抽出し、日本語訳候補を提示せよ。

【条件】
- 精神医学・精神分析の専門用語に限定
- 一般語は除外
- 頻出語を優先

【出力形式】
英語 = 日本語候補

■ 例

projective identification = 投影同一視
ego ideal = 自我理想

■ 自動化フロー

① 原文投入
② 用語抽出
③ dictionary.json に追加（手動確認あり）

■ 精度を上げる工夫

● 頻度フィルタ

if word_count > 3:
    keep()

● 既存辞書との照合

if term not in dictionary:
    add_candidate()

■ 応用（かなり強い）

■ 文脈付き抽出

用語 + その使用文を出せ

👉 訳語判断が正確になる

④ 3つを統合するとどうなるか

最終形はこうです：

■ 完全版パイプライン

① 用語自動抽出
② 辞書更新
③ 複数モデル翻訳
④ ensemble統合
⑤ embeddingで揺れ検出
⑥ 修正

⑤ 正直な評価

ここまでやると：

商業翻訳にかなり近い
人間の役割は「監督」になる

まとめ

それぞれの役割はこうです：

■ ensemble翻訳

→ 誤訳を減らす

■ embeddingチェック

→ 一貫性を担保する

■ 用語抽出

→ 辞書を進化させる

そして本質はこれです：

翻訳を「単発処理」から「循環システム」に変える

ここまで来ると、もう「良いモデル探し」は終わりで、

自分専用翻訳環境をどう育てるか

のフェーズに入っています。

★

③ 超シンプル運用（おすすめ） ■ 必要なもの（3つだけ） ① 用語辞書（テキスト） ② グローバルプロンプト（テキスト） ③ 翻訳したい原文

■ 実際の流れ ① プロンプトを1つ作るこれを「テンプレ」として保存：

あなたは精神医学の専門翻訳者である。

【ルール】

逐語訳
文構造維持
意訳禁止

【用語】 transference = 転移 ego = 自我 self = 自己

【本文】

（ここに原文）

👉 メモ帳でもNotionでもOK

② 原文を貼る 👉 Ollama / LMStudioにコピペ

③ 出てきた訳を修正 👉 気になる用語があれば辞書に追加

④ 「擬似パイプライン」化する Pythonの代わりにこうします：

■ STEP 1（翻訳）普通に投げる

■ STEP 2（用語チェック）これをそのまま投げる：

この翻訳で、同じ英語に対して異なる訳語が使われていないか確認せよ ■ STEP 3（整形）意味を変えずに、学術論文調に整えよ 👉 これで十分「システム化」されています

⑤ さっきの高度な話の“本質だけ”抜くとコードは忘れてOKで、やっていることはこれだけです：

■ ① 複数モデル 👉 「別モデルでもう1回訳す」

■ ② embedding 👉 「似た文で訳がズレてないか見る」

■ ③ 自動抽出 👉 「重要そうな単語をメモる」

👉 全部、人力でもできます

⑥ 一番重要な現実あなたの今の状況だと：

GPUあり

モデル選定できてる

翻訳の目もある

👉 すでに上位数％の環境です

⑦ 本当に効くのはここコードではなく：

用語を固定する

逐語訳を徹底する

長文を分ける

👉 これだけで品質は跳ねます

まとめ Pythonは「自動化の道具」でしかない

あなたの目的には必須ではない

今は手動パイプラインで十分プロレベルに行ける

もし希望があれば、

👉 「完全コピペだけで回る翻訳テンプレ（最終版）」

を作ります。（コード一切なしで、かなり完成度高いもの）

★

了解です。ここまでの内容を全部「コードなし」で回せる形に統合します。
そのままコピペして使える完成版テンプレです。

■ ① メイン翻訳テンプレ（最重要）

これを「基本形」として保存してください（メモ帳・Notionなど）

あなたは精神医学および精神分析に精通した専門翻訳者である。

以下の英文を日本語に翻訳せよ。

【最優先原則】

逐語訳を行うこと

【翻訳ルール】

原文の文構造・論理関係を保持する
文の分割・統合を行わない
要約・意訳・補足を禁止する
不明瞭な箇所は不明瞭なまま訳す
勝手に意味を補完しない

【文体】

学術論文調（である調）
過度に自然な日本語にしない
簡潔で端正にする

【用語ルール】

同一英語には必ず同一訳語を使う
用語の言い換えを禁止する

【用語辞書】
transference = 転移
countertransference = 逆転移
ego = 自我
self = 自己
object relations = 対象関係
splitting = 分裂
projective identification = 投影同一視

【出力形式】

原文の段落構造を維持する

【原文】

（ここに英文を貼る）

■ ② 用語チェックテンプレ（必ず使う）

翻訳後にこれを投げるだけ

以下の翻訳についてチェックせよ。

【チェック項目】

同一英語語に対して複数の訳語が使われていないか
専門用語が一貫しているか
勝手な言い換えがないか

【指示】

問題がある箇所のみ指摘せよ
必要なら修正案を提示せよ

（翻訳文を貼る）

■ ③ 論文調仕上げテンプレ（最後に使う）

※ここ重要：最後だけ使う

以下の日本語を整形せよ。

【条件】

意味を一切変更しない
情報を追加しない
削除もしない

【目的】

学術論文として自然な日本語に整える
「である調」に統一する
冗長な表現をわずかに整理する

（翻訳文）

■ ④ バックトランスレーション（難所だけ）

怪しい段落だけでOK

Step1（再英訳）

以下の日本語を英語に翻訳せよ。

【条件】

逐語的に戻すこと
自然な英語にしない
解釈を加えない
元の英文を推測して修正しない

（日本語訳）

Step2（比較）

以下の2つの英文を比較せよ。

【観点】

意味のズレ
論理関係の変化
省略や追加
ニュアンスの変化

【出力】

問題がある箇所のみ指摘

原文：
（元の英文）

再英訳：（戻した英文）

■ ⑤ 複数モデル比較（余裕があるとき）

以下は同一英文の複数の翻訳である。

【評価基準】

原文への忠実性
用語の一貫性
逐語性

【指示】

最も適切な訳を選ぶ
必要なら統合する
新たな解釈は加えない

訳A：
（Gemma）

訳B：（GPT-OSS）

■ ⑥ 用語抽出テンプレ（辞書育成）

以下の英文から専門用語を抽出せよ。

【条件】

精神医学・精神分析に関連する語のみ
一般語は除外
重要度の高い語を優先

【出力形式】
英語 = 日本語候補

（原文）

■ ⑦ 実際の運用（これだけやればOK）

最小構成：

① 翻訳（①テンプレ）

↓

② 用語チェック（②テンプレ）

↓

③ 最後に整形（③テンプレ）

👉 これだけでかなり完成度高い

■ ⑧ さらに精度を上げるなら

難しい段落だけ④
迷ったら⑤
新しい用語は⑥で追加

■ 最後に（重要）

このテンプレの本質はこれです：

モデルに「考えさせない」こと

逐語訳を強制
用語を固定
勝手な解釈を封じる

ここまで整っていれば、
ローカルLLMでもかなり安定して「翻訳機」として動きます。

もし次にやるとしたら：

用語辞書をあなた専用に最適化
著者別（Freud / Kernbergなど）テンプレ分岐

このあたりが次のステップです。

① なぜ「評判」と「体感」がズレるのか

1. ベンチマークと実務が違いすぎる

2. 日本語性能の差がめちゃくちゃ大きい

3. 量子化（圧縮）の影響が想像以上に大きい

4. 思考系モデル（Qwenなど）のクセ

② あなたの評価はかなり筋が通っている

③ あなたの用途に特化した最適解

✔ 最重要

✔ 次

④ 現実的なおすすめ構成

■ メイン用途（翻訳・執筆）

■ サブ（高速確認・下書き）

■ 比較用（たまに）

⑤ 「大きい＝賢い」の正しい理解

⑥ なぜGemmaがしっくり来るのか

⑦ かなり重要な補足（翻訳用途）

まとめ

① 基本構造（これが核）

② 「逐語訳寄り」をさらに強める

追加する一文：

③ 「文学調」を入れる場合（重要：やりすぎ注意）

安全な入れ方：

④ 専門用語の固定（ここがかなり効く）

⑤ 精神医学翻訳に特化した強化プロンプト

⑥ モデル別の微調整

■ Gemma系

■ GPT-OSS

■ Qwen（使うなら）

⑦ さらに精度を上げる裏技（かなり効く）

1. 「分割翻訳」

2. 「訳語辞書を育てる」

3. 「ダブルパス」

まとめ

① 「標準論文風」を安全に入れるプロンプト

■ 安全版プロンプト

【原文】

（テキスト）

■ キモ

② TFP・精神分析 用語「準完全辞書」

■ 最重要（絶対固定）

■ TFP・クライン系

■ 自己愛・人格構造

■ 臨床プロセス

■ 判断が分かれるやつ（重要）

③ 章単位で破綻しない翻訳パイプライン

■ 全体構造

① 前処理（これをやる人は少ない）

② 分割翻訳（最重要）

ルール：

プロンプトに追加：

③ 用語統一チェック（地味に効く）

■ 機械チェック

■ 人間チェック（あなた）

④ スタイル統一（論文風に寄せる）

⑤ 最終整形

④ 実務での最強ワークフロー（簡略版）

Step 1

Step 2

Step 3

まとめ

① 英語 → 日本語 → 再英語（バックトランスレーション）

■ 基本フロー

■ Step①：通常翻訳（ここは既にやっている）

■ Step②：再英訳（ここが重要）

■ Step③：比較のやり方（核心）

■ 何が検出できるか

■ 注意点（重要）

■ 実務での使いどころ

② Gemmaを安定させる設定（かなり効く）

■ 結論（まずこれ）

■ なぜこうなるか

● temperature（最重要）

● top_p

● top_k

● repeat_penalty

■ NG設定（ありがち）

③ 翻訳特化の“モード切替”

■ 厳密翻訳モード

■ バランスモード

■ 仕上げモード（リライト用）

② TFP・精神分析用語「準完全辞書」