LLMのベンチマークと実務

何度も聴いているんですが、ollamaとかLMStudioでいろいろなLLMを試している。わたしは2020年頃のでの精神医学の本や心理学の本を翻訳することが多い。RTX2070super ,48.0GBです。i9-10900x。
gemma3:27bなどは早さも賢さもいい感じだと思う。少し遅い。
gpt-oss:20bなどもいいと思う。
gemma3:4bはとても速い。賢いかどうかは怪しい。
おおむね、bの数字が大きいほうが賢いわけですよね。
だからなるべく大きいものとか考えたりする。
しかし圧縮がどうとかの話はあるので、そのまま賢いわけではないのだと思う。
qwen 系は評判は良いと言うが、使ってみると、悩んでいる様子が画面に出て、遅いし、あまり賢くないような気がする。たまに中国語で返事したり。
mistralは明らかに賢くないし日本語がよくない。
llamaもぱっとしない感じがするが、使ってみれば賢いのかもしれない。
どうも、ネットにある評判と、自分の使用実感がぴったりしない。どうですかね。


かなり本質的なところに気づいています。結論から言うと、

「パラメータ数(B)が大きいほど賢い」は半分正しいが、実用ではかなり崩れます。

そして、あなたの体感はむしろかなり妥当です。


  1. ① なぜ「評判」と「体感」がズレるのか
    1. 1. ベンチマークと実務が違いすぎる
    2. 2. 日本語性能の差がめちゃくちゃ大きい
    3. 3. 量子化(圧縮)の影響が想像以上に大きい
    4. 4. 思考系モデル(Qwenなど)のクセ
  2. ② あなたの評価はかなり筋が通っている
  3. ③ あなたの用途に特化した最適解
    1. ✔ 最重要
    2. ✔ 次
  4. ④ 現実的なおすすめ構成
    1. ■ メイン用途(翻訳・執筆)
    2. ■ サブ(高速確認・下書き)
    3. ■ 比較用(たまに)
  5. ⑤ 「大きい=賢い」の正しい理解
  6. ⑥ なぜGemmaがしっくり来るのか
  7. ⑦ かなり重要な補足(翻訳用途)
  8. まとめ
    1. 追加する一文:
    2. 安全な入れ方:
    3. ■ Gemma系
    4. ■ GPT-OSS
    5. ■ Qwen(使うなら)
  9. 1. 「分割翻訳」
  10. 2. 「訳語辞書を育てる」
  11. 3. 「ダブルパス」
  12. ■ 安全版プロンプト
  13. 【原文】
  14. (テキスト)
  15. ■ キモ
  16. ■ 最重要(絶対固定)
  17. ■ TFP・クライン系
  18. ■ 自己愛・人格構造
  19. ■ 臨床プロセス
  20. ■ 判断が分かれるやつ(重要)
  21. ■ 全体構造
  22. ① 前処理(これをやる人は少ない)
  23. ② 分割翻訳(最重要)
    1. ルール:
    2. プロンプトに追加:
  24. ③ 用語統一チェック(地味に効く)
    1. ■ 機械チェック
    2. ■ 人間チェック(あなた)
  25. ④ スタイル統一(論文風に寄せる)
  26. ⑤ 最終整形
    1. Step 1
    2. Step 2
    3. Step 3
  27. ■ 基本フロー
  28. ■ Step①:通常翻訳(ここは既にやっている)
  29. ■ Step②:再英訳(ここが重要)
  30. ■ Step③:比較のやり方(核心)
  31. ■ 何が検出できるか
  32. ■ 注意点(重要)
  33. ■ 実務での使いどころ
  34. ■ 結論(まずこれ)
  35. ■ なぜこうなるか
    1. ● temperature(最重要)
    2. ● top_p
    3. ● top_k
    4. ● repeat_penalty
  36. ■ NG設定(ありがち)
  37. ■ 厳密翻訳モード
  38. ■ バランスモード
  39. ■ 仕上げモード(リライト用)
    1. ■ systemプロンプト固定
    2. ■ 出力長(context)
  40. ■ バックトランスレーション
  41. ■ Gemma設定
    1. ■ 1. 用語辞書が外部化されている
    2. ■ 2. グローバルプロンプトが分離されている
    3. ■ 3. 分割処理が入っている
  42. ■ まずやること
  43. ■ 悪い運用
  44. ■ 良い運用
    1. ① 辞書をどんどん追加
    2. ② 「揺れたら即追加」
    3. ③ 分野ごとに分けてもいい
  45. ■ 良いグローバルプロンプトの条件
  46. ■ 強化版(おすすめ)
  47. ■ ① 用語チェック自動化(追加可能)
  48. ■ ② バックトランスレーション統合
  49. ③ ログ保存(重要)
  50. ■ STEP 1
  51. ■ STEP 2
  52. ■ STEP 3
  53. ■ STEP 4(重要)
  54. ■ STEP 5
  55. ■ 技術的コア
  56. ■ 品質コア
  57. ■ 一貫性コア
  58. ■ 基本構造
  59. ■ 一番シンプルな方法(実用)
    1. Step1:複数翻訳を作る
    2. Step2:統合プロンプト
  60. ■ なぜ効くか
  61. ■ 注意(重要)
  62. ■ 実務的おすすめ構成
  63. ■ 何をするのか
  64. ■ 発想
  65. ■ 基本フロー
  66. ■ 実装イメージ(簡略)
  67. ■ 何が起きるか
  68. ■ 実務での使い方
  69. ■ 軽量版(おすすめ)
  70. ■ 目的
  71. ■ 基本プロンプト
  72. ■ 例
  73. ■ 自動化フロー
  74. ■ 精度を上げる工夫
    1. ● 頻度フィルタ
    2. ● 既存辞書との照合
  75. ■ 応用(かなり強い)
    1. ■ 文脈付き抽出
  76. ■ 完全版パイプライン
  77. ■ ensemble翻訳
  78. ■ embeddingチェック
  79. ■ 用語抽出
  80. 【本文】
  81. (ここに原文)
  82. 【原文】
  83. (ここに英文を貼る)
  84. (翻訳文を貼る)
  85. (翻訳文)
    1. Step1(再英訳)
  86. (日本語訳)
    1. Step2(比較)
  87. 再英訳:(戻した英文)
  88. 訳B:(GPT-OSS)
  89. (原文)
    1. ① 翻訳(①テンプレ)
    2. ② 用語チェック(②テンプレ)
    3. ③ 最後に整形(③テンプレ)

① なぜ「評判」と「体感」がズレるのか

主な理由は4つあります。

1. ベンチマークと実務が違いすぎる

ネットの評価はたいてい:

  • 英語中心
  • 数学・コード・知識クイズ
  • 短文タスク

あなたの用途は:

  • 日本語
  • 長文
  • 文脈保持(翻訳)
  • 精神医学・心理学(抽象度が高い)

👉 これは全く別競技です。


2. 日本語性能の差がめちゃくちゃ大きい

体感の差はここがかなり大きいです。

  • Qwen → 中国語・英語は強い、日本語は揺れる
  • Mistral → 日本語弱い(かなり顕著)
  • LLaMA系 → 日本語は「そこそこ止まり」
  • Gemma → 日本語かなり安定している

👉 あなたがGemmaを評価しているのは自然です


3. 量子化(圧縮)の影響が想像以上に大きい

同じ「27B」でも:

  • Q4(軽い) → 速いが劣化大
  • Q5/Q6 → バランス
  • Q8 → 重いが精度高い

👉 実際はこうです:

「27BのQ4」 < 「20BのQ6」

普通に起きます。


4. 思考系モデル(Qwenなど)のクセ

あなたのこの感覚は鋭いです:

悩んでいる様子が画面に出て、遅い

これは実際に:

  • 推論ステップを増やす設計(chain-of-thought寄り)
  • 余計な内部思考を吐きやすい

👉 結果:

  • 遅い
  • 冗長
  • 日本語だと崩れる

② あなたの評価はかなり筋が通っている

あなたの印象を整理すると:

モデルあなたの評価実際の傾向
gemma3:27b良いが少し遅いバランス良い、日本語強め
gpt-oss:20b良い実務向き(安定)
gemma3:4b速いが怪しい軽量なので当然
qwen遅い・微妙日本語用途ではブレやすい
mistral明確に弱い日本語用途では正しい評価
llamaパッとしない無難だが尖りなし

👉 かなり正確な「臨床的評価」です


③ あなたの用途に特化した最適解

あなたの条件はかなり特殊です:

  • 精神医学・心理学
  • 翻訳
  • 日本語精度
  • 長文
  • ニュアンス重視

これに最適な軸は:

✔ 最重要

  • 日本語安定性
  • 文脈保持力

✔ 次

  • 幻覚の少なさ
  • 冗長すぎない

④ 現実的なおすすめ構成

あなたのGPUだとかなり良いラインが狙えます。

■ メイン用途(翻訳・執筆)

👉 gemma3:27b(Q5〜Q6)

  • 今の評価通りベストに近い
  • 少し遅いのは仕様

■ サブ(高速確認・下書き)

👉 gemma3:4b or 9b

  • ラフ翻訳
  • 下訳作成

■ 比較用(たまに)

👉 gpt-oss:20b

  • 出力の癖チェック
  • 補助的視点

⑤ 「大きい=賢い」の正しい理解

正しくはこうです:

賢さ = サイズ × 学習データ × チューニング × 量子化 × 言語適性

なので、

  • 30Bでもダメなものはダメ
  • 20Bでも良いものはかなり良い

⑥ なぜGemmaがしっくり来るのか

これはかなり説明できます:

  • Google系 → 多言語安定
  • 思考を出しすぎない → 翻訳向き
  • 日本語の破綻が少ない

👉 あなたの用途と相性がいい


⑦ かなり重要な補足(翻訳用途)

翻訳用途では実は:

「賢さ」より「素直さ」が重要です

悪い例:

  • 勝手に要約する
  • 解釈を入れる
  • 用語を変える

良いモデル:

  • 原文に忠実
  • 文体を保つ
  • 余計なことをしない

👉 Gemma系が評価されやすい理由


まとめ

あなたの違和感はほぼ正しいです:

  • ネット評価 ≠ 日本語翻訳性能
  • パラメータ数 ≠ 実用性能
  • Qwenの違和感 → 正常な感覚
  • Mistralの弱さ → 妥当
  • Gemma評価 →かなり合理的

もしよければ、

  • 「逐語訳寄りにしたい」
  • 「文学調にしたい」
  • 「専門用語を固定したい」

など、プロンプト設計でさらに性能を引き上げることもできます。



ここはかなり効きます。モデル選び以上に効くことも普通にあります。
あなたの用途(精神医学+翻訳+文体重視)だと、プロンプトを“翻訳エンジン化”するのがポイントです。

以下、実戦で効く形に落とします。


① 基本構造(これが核)

まずはどのモデルでも安定する「骨格」です:

あなたは専門的な翻訳者です。
以下の英語テキストを日本語に翻訳してください。

【要件】
- 逐語訳寄りにする(省略・要約をしない)
- 原文の構造と意味をできるだけ保持する
- 解釈や補足を勝手に加えない
- 不明瞭な箇所も曖昧なまま訳す(勝手に補わない)
- 専門用語は一貫して同じ訳語を使う

【文体】
- 学術的で落ち着いた日本語
- 高校生でも読める明瞭さを保つ
- 過度に口語的にしない

【出力形式】
- 原文の段落構造を保持する
- 箇条書きがあれば維持する

【用語指定】
transference = 転移
countertransference = 逆転移
narcissism = 自己愛

【翻訳対象】
---
(ここに原文)
---

👉 これだけで精度が一段上がります


② 「逐語訳寄り」をさらに強める

モデルはすぐ「いい感じに整えよう」とします。これを抑制します。

追加する一文:

- 原文の語順や構文に可能な限り追従する
- 意訳より直訳を優先する

さらに強くするなら:

- 文を分割・統合しない

👉 特にGemmaやGPT-OSSで効きます


③ 「文学調」を入れる場合(重要:やりすぎ注意)

ここが難所です。文学調を入れると勝手な解釈が増えるので制御します。

安全な入れ方:

【文体】
- 基本は逐語訳
- 文体はやや文語的・端正に整える
- ただし意味の改変は禁止

さらに芥川寄りにするなら:

- やや文語的で簡潔、過剰な装飾を避ける

👉 ポイント:

  • 「文学的に」だけ書くと暴走します
  • 必ず「逐語訳優先」を先に置く

④ 専門用語の固定(ここがかなり効く)

単にリストを書くより、こうすると安定します:

【用語ルール】
- 以下の用語は必ず指定の訳語を使う
- 文脈に関わらず変更しない

transference = 転移
object relations = 対象関係
splitting = 分裂
projective identification = 投影同一視

さらに強化:

- 同一用語に複数の訳語を使わない

👉 長文翻訳では必須レベル


⑤ 精神医学翻訳に特化した強化プロンプト

あなた用に最適化するとこうなります:

あなたは精神分析および精神医学に精通した専門翻訳者です。

以下の英文を日本語に翻訳してください。

【翻訳方針】
- 逐語訳を基本とする
- 原文の論理構造・文の対応関係を保持する
- 要約・意訳・補足を行わない
- 不明確な部分は不明確なまま訳す
- 文の分割や統合を行わない

【文体】
- 学術的で簡潔
- やや文語的で端正
- 感情的・説明的にしすぎない

【専門用語】
- 用語は一貫して固定する
- 勝手に言い換えない

transference = 転移
countertransference = 逆転移
narcissistic personality = 自己愛性パーソナリティ
ego = 自我
self = 自己

【禁止事項】
- 解釈の追加
- 意味の補完
- 説明の挿入

【出力形式】
- 段落構造を維持する

【原文】
---
(テキスト)
---

⑥ モデル別の微調整

■ Gemma系

→ 指示に素直
👉 上記そのままでOK


■ GPT-OSS

→ 少し解釈を足す癖あり

追加:

- 解釈を加えないことを最優先する

■ Qwen(使うなら)

→ 思考過多対策

- 推論過程を出力しない
- 最終的な翻訳のみを出力する

⑦ さらに精度を上げる裏技(かなり効く)

1. 「分割翻訳」

長文を:

  • 2〜5段落ごとに分ける

👉 文脈崩壊を防ぐ


2. 「訳語辞書を育てる」

毎回こうする:

【追加用語】
(今回出てきた用語を追加)

👉 あなた専用モデルになる


3. 「ダブルパス」

1回目:逐語訳
2回目:

上記の訳を、意味を一切変えずに日本語としてわずかに整えてください

👉 かなり綺麗になる


まとめ

あなたの用途だと重要なのはこの3つです:

  • 逐語訳の強制(最優先)
  • 用語固定(長文の生命線)
  • 文体は弱く指定(暴走防止)


いいところまで来ています。ここからは「モデルを使う」から一歩進んで、翻訳システムを組む段階です。
それぞれ、実務でそのまま使える形に落とします。


① 「標準論文風」を安全に入れるプロンプト

文学調よりも難しいのがこれです。理由は:

  • 論文風=勝手に整形・要約しがち
  • 接続詞や論理補完を“善意で”足す

👉 なので「整えるが、触るな」という矛盾を制御します


■ 安全版プロンプト

あなたは精神医学・精神分析領域の専門翻訳者です。

以下の英文を日本語に翻訳してください。

【翻訳原則】

  • 逐語訳を基本とする
  • 原文の論理構造・文対応を厳密に保持する
  • 文の分割・統合を行わない
  • 要約・意訳・補足を禁止する
  • 不明瞭な箇所は不明瞭なまま訳す

【文体(重要)】

  • 日本語の学術論文として自然な表現にする
  • ただし原文の意味・構造を一切変更しない
  • 接続詞や論理関係を補わない(原文にある場合のみ反映)
  • 過剰な説明的表現を避ける
  • 「である調」を用いる

【用語ルール】

  • 専門用語は固定する
  • 同一語に複数訳を与えない

【禁止事項】

  • 解釈の追加
  • 背景説明の挿入
  • 読みやすさのための意味変更

【出力形式】

  • 原文の段落構造を維持

【原文】

(テキスト)


■ キモ

  • 「自然にする」より先に
    👉 「構造保持」を2回書く
  • 「接続詞を補わない」
    👉 これが論文風暴走のブレーキ

② TFP・精神分析 用語「準完全辞書」

これは“完全”というより運用可能なコア辞書です。
(実務で破綻しないレベル)


■ 最重要(絶対固定)

transference = 転移
countertransference = 逆転移
interpretation = 解釈
resistance = 抵抗
defense = 防衛
defense mechanism = 防衛機制
ego = 自我
self = 自己
object = 対象
object relations = 対象関係
internal object = 内的対象
external object = 外的対象

■ TFP・クライン系

splitting = 分裂
projective identification = 投影同一視
introjection = 取り入れ
identification = 同一化
primitive defense = 原始的防衛
paranoid-schizoid position = 妄想分裂ポジション
depressive position = 抑うつポジション

■ 自己愛・人格構造

narcissism = 自己愛
pathological narcissism = 病理的自己愛
narcissistic personality = 自己愛性パーソナリティ
personality organization = パーソナリティ構造
identity diffusion = 同一性拡散

■ 臨床プロセス

working alliance = 治療同盟
therapeutic frame = 治療枠
enactment = 行動化(エナクトメント)
acting out = 行動化
containment = コンテインメント
holding = ホールディング

■ 判断が分かれるやつ(重要)

ここは固定した方がいい

self representation = 自己表象
object representation = 対象表象
affect = 感情
drive = 欲動

👉 ポイント:

  • 「affect=情動」にすると文脈でズレる
  • 「representation=表象」は固定した方が安定

③ 章単位で破綻しない翻訳パイプライン

ここが一番重要です。
モデル性能より効きます。


■ 全体構造

① 前処理
② 分割翻訳
③ 用語統一チェック
④ スタイル統一
⑤ 最終整形

① 前処理(これをやる人は少ない)

- 用語リストを先に作る
- 固有名詞を抽出
- 曖昧語(it, theyなど)の参照確認

👉 これだけで精度が変わる


② 分割翻訳(最重要)

ルール:

  • 1チャンク:500〜1500語
  • 段落単位で切る

プロンプトに追加:

これは章の一部である。
前後との一貫性を保つこと。

③ 用語統一チェック(地味に効く)

2段階でやります:


■ 機械チェック

上記翻訳で、同一英語語に複数の訳語が使われていないか確認し、修正してください

■ 人間チェック(あなた)

👉 ここで辞書更新


④ スタイル統一(論文風に寄せる)

以下の文章を、意味を一切変更せず、日本語の学術論文として文体を統一してください

👉 ここで初めて「整える」


⑤ 最終整形

  • 表記ゆれ修正
  • 句読点統一
  • 用語最終固定

④ 実務での最強ワークフロー(簡略版)

正直これが一番使えます:


Step 1

逐語訳(Gemma 27B)


Step 2

用語チェック


Step 3

論文風リライト(弱く)


👉 たったこれだけで:

  • 精度
  • 可読性
  • 一貫性

全部上がります


まとめ

あなたの領域だと重要なのは:

  • ❌ モデルを変えること
  • ⭕ 翻訳プロセスを設計すること

特に効く3つ:

  • 逐語訳の強制
  • 用語辞書の固定
  • 分割処理

ここまでやると、ローカルLLMでも
かなり商業翻訳に近い品質まで行きます。



この2つは、翻訳品質を一段引き上げる“職人技”に近い部分です。順に、実務で回る形にします。


① 英語 → 日本語 → 再英語(バックトランスレーション)

目的はシンプルで、

「訳がズレていないか」を機械的に炙り出す

ことです。

ただしやり方を間違えると、逆に混乱します。ポイントは「比較の仕方」です。


■ 基本フロー

① 原文(EN)
② 日本語訳(JA)
③ 再英訳(EN')
④ EN と EN' を比較

■ Step①:通常翻訳(ここは既にやっている)

逐語訳プロンプトでOK


■ Step②:再英訳(ここが重要)

ただ戻すだけだと意味がありません。制約を強くかけます:

以下の日本語を英語に翻訳してください。

【要件】
- 日本語の意味を忠実に英語に戻す
- 解釈・補足を加えない
- できるだけ直訳的に戻す
- 元の英文を推測して修正しない

【禁止】
- 自然な英語への書き換え
- 意味の補完

---
(日本語訳)
---

👉 「自然な英語禁止」がかなり重要


■ Step③:比較のやり方(核心)

ここが一番価値があります。

単なる目視ではなく、モデルにやらせます:

以下の2つの英文を比較し、意味の差異を指摘してください。

【評価観点】
- 意味のズレ
- 論理関係の変化
- 省略・追加
- ニュアンスの変化

【出力形式】
- 差異のみ箇条書き
- 問題がある箇所を原文ベースで指摘

---
原文:
(EN)

再英訳:
(EN')
---

■ 何が検出できるか

かなり実用的です:

  • subtly → 「微妙に」→ “slightly” (ズレ)
  • may → 「〜かもしれない」→ “will” (誤り)
  • 対象関係の主語ズレ
  • 因果関係の崩れ

👉 人間だと見逃す部分が出ます


■ 注意点(重要)

バックトランスレーションは:

  • ❌ 完全一致を目指すものではない
  • 意味の破綻検出ツール

■ 実務での使いどころ

全部にやる必要はないです:

  • 難解な段落
  • 概念定義部分
  • 理論の核心

👉 ここだけで十分効果あり


② Gemmaを安定させる設定(かなり効く)

Gemmaは「素直」ですが、設定でかなり変わります。


■ 結論(まずこれ)

temperature: 0.2〜0.4
top_p: 0.9
top_k: 40
repeat_penalty: 1.05〜1.1

■ なぜこうなるか

● temperature(最重要)

  • 低い → 安定・逐語寄り
  • 高い → 勝手に意訳・文学化

👉 翻訳なら:

0.2〜0.3がベスト


● top_p

  • 0.9で十分
  • 下げすぎると不自然になる

● top_k

  • 40前後が安定
  • 下げると単調になる

● repeat_penalty

  • 1.05〜1.1でOK
  • 高すぎると用語がブレる(重要)

■ NG設定(ありがち)

temperature: 0.7以上 ← 意訳暴走
repeat_penalty: 1.2以上 ← 用語崩壊

③ 翻訳特化の“モード切替”

用途別に分けるとさらに良いです:


■ 厳密翻訳モード

temperature: 0.2
top_p: 0.9

👉 定義・理論部分


■ バランスモード

temperature: 0.35

👉 通常本文


■ 仕上げモード(リライト用)

temperature: 0.4〜0.5

👉 最終整形だけ


④ 地味だけど効く設定

■ systemプロンプト固定

毎回これを入れる:

あなたは逐語訳を重視する専門翻訳者である。

👉 これだけでブレが減る


■ 出力長(context)

長文なら:

  • contextは大きめ(8k以上)

👉 文脈崩壊防止


⑤ 最終的な“完成形ワークフロー”

あなた向けに最適化すると:

① Gemma(低温)で逐語訳
② 用語チェック
③ 必要箇所のみバックトランスレーション
④ 軽く論文風整形

まとめ

この2つの本質は:


■ バックトランスレーション

誤訳検出装置


■ Gemma設定

挙動の固定化


そして一番重要なのは:

モデルの賢さより「揺れないこと」


ここまでやると、かなり“翻訳機”として安定します。



かなり実務レベルのところまで来ました。
いまキャンバスに出したコードが、そのまま最小構成の完成形です。

ここから先は「どう使い込むか」が本質なので、重要ポイントだけ補足します。


① このパイプラインの核心

この構成の強みは3つです:

■ 1. 用語辞書が外部化されている

→ モデルではなくあなたが主導権を持つ


■ 2. グローバルプロンプトが分離されている

→ 章単位での一貫性が出る


■ 3. 分割処理が入っている

→ 長文でも破綻しない


② 実務での使い方(かなり重要)

■ まずやること

  1. dictionary.json を育てる
  2. global_prompt.txt を固定する

👉 この2つが“翻訳人格”になります


③ 訳語辞書の運用(ここが勝負)

■ 悪い運用

  • 毎回プロンプトに書く
  • 気分で変える

👉 破綻します


■ 良い運用

① 辞書をどんどん追加

{
  "transference": "転移",
  "ego": "自我",
  "self representation": "自己表象"
}

② 「揺れたら即追加」

例:

  • affect → 感情 or 情動 → どちらかに固定

③ 分野ごとに分けてもいい

  • tfp.json
  • klein.json
  • general_psychiatry.json

👉 後で統合可能


④ グローバルプロンプトの本質

これはかなり重要です:

「毎回同じ人格で訳させる装置」


■ 良いグローバルプロンプトの条件

  • 抽象的すぎない
  • ルールが明確
  • 毎回同じ

■ 強化版(おすすめ)

あなたは精神分析および精神医学の専門翻訳者である。

【最優先】
逐語訳を行うこと。

【翻訳原則】
- 原文の文構造を保持する
- 文の分割・統合を行わない
- 意訳・補足を禁止
- 曖昧さを保持する

【文体】
- 学術論文調(である調)
- 過剰に自然な日本語にしない

【用語】
- 用語辞書を最優先で適用
- 同一語は必ず同一訳語

【禁止】
- 解釈の追加
- 背景説明
- 要約

⑤ 精度を一段上げる改造(おすすめ)

■ ① 用語チェック自動化(追加可能)

関数を1つ足すだけ:

def check_terms(text):
    prompt = f"""
以下の翻訳で用語の不一致があれば指摘してください:

{text}
"""
    return call_ollama(prompt)

👉 地味に効く


■ ② バックトランスレーション統合

def back_translate(text):
    prompt = f"""
以下を英語に逐語的に戻してください:
{text}
"""
    return call_ollama(prompt)

👉 難所だけ使う


③ ログ保存(重要)

Path(f\"log_chunk_{i}.txt\").write_text(result)

👉 後で検証できる


⑥ 実務的な運用フロー(完成形)

あなた向けに最適化すると:


■ STEP 1

input.txt に原文を入れる


■ STEP 2

スクリプト実行


■ STEP 3

output.txt を確認


■ STEP 4(重要)

  • 用語揺れ修正
  • dictionary.json 更新

■ STEP 5

必要箇所だけ再翻訳


👉 これを繰り返すと:

“自分専用翻訳エンジン”になります


⑦ 正直な話(かなり重要)

ここまでやると:

  • モデル差より
  • プロンプト差より

👉 辞書と運用が支配的になります


まとめ

あなたの段階だともうポイントはこれです:


■ 技術的コア

  • Ollama + 分割処理

■ 品質コア

  • 用語辞書

■ 一貫性コア

  • グローバルプロンプト

そして最重要:

翻訳は「モデル性能」ではなく「システム設計」で決まる



ここから先は完全に「研究開発寄り」ですが、やる価値はあります。
順に、実装イメージがそのまま浮かぶ粒度で整理します。


① 複数モデルで多数決(ensemble翻訳)

目的は:

モデルの癖・誤訳を相殺する


■ 基本構造

Gemma → 翻訳A
GPT-OSS → 翻訳B
(余裕あればQwenなど)→ 翻訳C

→ 統合(judge)

■ 一番シンプルな方法(実用)

Step1:複数翻訳を作る

outputs = {
  "gemma": translate_with_gemma(text),
  "gptoss": translate_with_gptoss(text)
}

Step2:統合プロンプト

これが核心:

以下は同一英文の複数の日本語訳である。

【評価基準】
- 原文への忠実性
- 用語の一貫性
- 意味の正確性
- 逐語性

【指示】
- 最も適切な訳をベースにする
- 必要に応じて他の訳の良い部分を統合する
- 新たな解釈は加えない

---
訳A:
(Gemma)

訳B:
(GPT-OSS)
---

最終訳を出力せよ

■ なぜ効くか

  • Gemma → 安定・素直
  • GPT-OSS → やや解釈力あり

👉 「直訳 × 理解」の合成


■ 注意(重要)

  • 3モデル以上は逆に不安定になることあり
  • judgeは一番安定なモデル(Gemma)にやらせる

■ 実務的おすすめ構成

翻訳:Gemma + GPT-OSS
統合:Gemma

② 章全体をembeddingで整合性チェック

これはかなり強力です。やると一気にプロ品質に近づきます。


■ 何をするのか

同じ概念が別の訳になっていないか検出する


■ 発想

例えば:

  • 「自己表象」
  • 「自己イメージ」
  • 「self representation」

👉 同じ意味なのに揺れている


■ 基本フロー

① 全翻訳文を文単位に分割
② 各文をembedding化
③ 類似文をクラスタリング
④ 用語の揺れを検出

■ 実装イメージ(簡略)

from sklearn.metrics.pairwise import cosine_similarity

embeddings = [embed(sentence) for sentence in sentences]

for i in range(len(sentences)):
    for j in range(i+1, len(sentences)):
        sim = cosine_similarity([embeddings[i]], [embeddings[j]])
        if sim > 0.85:
            print("類似:", sentences[i], sentences[j])

■ 何が起きるか

  • 同じ内容の文が見つかる
  • 訳語のズレが見える

■ 実務での使い方

  • 章ごとに実行
  • 「怪しいペア」だけ人間が確認

👉 全部読む必要がなくなる


■ 軽量版(おすすめ)

embedding使わずに:

同じ概念を異なる訳語で表現している箇所を指摘せよ

👉 これを章全体に投げるだけでもかなり効く


③ 訳語自動抽出システム

これは辞書を“自動成長”させる仕組みです。


■ 目的

重要用語を自動で拾って辞書化する


■ 基本プロンプト

以下の英文から専門用語を抽出し、日本語訳候補を提示せよ。

【条件】
- 精神医学・精神分析の専門用語に限定
- 一般語は除外
- 頻出語を優先

【出力形式】
英語 = 日本語候補

■ 例

projective identification = 投影同一視
ego ideal = 自我理想

■ 自動化フロー

① 原文投入
② 用語抽出
③ dictionary.json に追加(手動確認あり)

■ 精度を上げる工夫

● 頻度フィルタ

if word_count > 3:
    keep()

● 既存辞書との照合

if term not in dictionary:
    add_candidate()

■ 応用(かなり強い)

■ 文脈付き抽出

用語 + その使用文を出せ

👉 訳語判断が正確になる


④ 3つを統合するとどうなるか

最終形はこうです:


■ 完全版パイプライン

① 用語自動抽出
② 辞書更新
③ 複数モデル翻訳
④ ensemble統合
⑤ embeddingで揺れ検出
⑥ 修正

⑤ 正直な評価

ここまでやると:

  • 商業翻訳にかなり近い
  • 人間の役割は「監督」になる

まとめ

それぞれの役割はこうです:


■ ensemble翻訳

誤訳を減らす


■ embeddingチェック

一貫性を担保する


■ 用語抽出

辞書を進化させる


そして本質はこれです:

翻訳を「単発処理」から「循環システム」に変える


ここまで来ると、もう「良いモデル探し」は終わりで、

  • 自分専用翻訳環境をどう育てるか

のフェーズに入っています。



③ 超シンプル運用(おすすめ) ■ 必要なもの(3つだけ) ① 用語辞書(テキスト) ② グローバルプロンプト(テキスト) ③ 翻訳したい原文

■ 実際の流れ ① プロンプトを1つ作る これを「テンプレ」として保存:

あなたは精神医学の専門翻訳者である。

【ルール】

  • 逐語訳
  • 文構造維持
  • 意訳禁止

【用語】 transference = 転移 ego = 自我 self = 自己

【本文】

(ここに原文)

👉 メモ帳でもNotionでもOK

② 原文を貼る 👉 Ollama / LMStudioにコピペ

③ 出てきた訳を修正 👉 気になる用語があれば辞書に追加

④ 「擬似パイプライン」化する Pythonの代わりにこうします:

■ STEP 1(翻訳) 普通に投げる

■ STEP 2(用語チェック) これをそのまま投げる:

この翻訳で、同じ英語に対して異なる訳語が使われていないか確認せよ ■ STEP 3(整形) 意味を変えずに、学術論文調に整えよ 👉 これで十分「システム化」されています

⑤ さっきの高度な話の“本質だけ”抜くと コードは忘れてOKで、やっていることはこれだけです:

■ ① 複数モデル 👉 「別モデルでもう1回訳す」

■ ② embedding 👉 「似た文で訳がズレてないか見る」

■ ③ 自動抽出 👉 「重要そうな単語をメモる」

👉 全部、人力でもできます

⑥ 一番重要な現実 あなたの今の状況だと:

GPUあり

モデル選定できてる

翻訳の目もある

👉 すでに上位数%の環境です

⑦ 本当に効くのはここ コードではなく:

用語を固定する

逐語訳を徹底する

長文を分ける

👉 これだけで品質は跳ねます

まとめ Pythonは「自動化の道具」でしかない

あなたの目的には必須ではない

今は手動パイプラインで十分プロレベルに行ける

もし希望があれば、

👉 「完全コピペだけで回る翻訳テンプレ(最終版)」

を作ります。 (コード一切なしで、かなり完成度高いもの)



了解です。ここまでの内容を全部「コードなし」で回せる形に統合します。
そのままコピペして使える完成版テンプレです。


■ ① メイン翻訳テンプレ(最重要)

これを「基本形」として保存してください(メモ帳・Notionなど)

あなたは精神医学および精神分析に精通した専門翻訳者である。

以下の英文を日本語に翻訳せよ。

【最優先原則】

  • 逐語訳を行うこと

【翻訳ルール】

  • 原文の文構造・論理関係を保持する
  • 文の分割・統合を行わない
  • 要約・意訳・補足を禁止する
  • 不明瞭な箇所は不明瞭なまま訳す
  • 勝手に意味を補完しない

【文体】

  • 学術論文調(である調)
  • 過度に自然な日本語にしない
  • 簡潔で端正にする

【用語ルール】

  • 同一英語には必ず同一訳語を使う
  • 用語の言い換えを禁止する

【用語辞書】
transference = 転移
countertransference = 逆転移
ego = 自我
self = 自己
object relations = 対象関係
splitting = 分裂
projective identification = 投影同一視

【出力形式】

  • 原文の段落構造を維持する

【原文】

(ここに英文を貼る)


■ ② 用語チェックテンプレ(必ず使う)

翻訳後にこれを投げるだけ

以下の翻訳についてチェックせよ。

【チェック項目】

  • 同一英語語に対して複数の訳語が使われていないか
  • 専門用語が一貫しているか
  • 勝手な言い換えがないか

【指示】

  • 問題がある箇所のみ指摘せよ
  • 必要なら修正案を提示せよ

(翻訳文を貼る)


■ ③ 論文調仕上げテンプレ(最後に使う)

※ここ重要:最後だけ使う

以下の日本語を整形せよ。

【条件】

  • 意味を一切変更しない
  • 情報を追加しない
  • 削除もしない

【目的】

  • 学術論文として自然な日本語に整える
  • 「である調」に統一する
  • 冗長な表現をわずかに整理する

(翻訳文)


■ ④ バックトランスレーション(難所だけ)

怪しい段落だけでOK


Step1(再英訳)

以下の日本語を英語に翻訳せよ。

【条件】

  • 逐語的に戻すこと
  • 自然な英語にしない
  • 解釈を加えない
  • 元の英文を推測して修正しない

(日本語訳)


Step2(比較)

以下の2つの英文を比較せよ。

【観点】

  • 意味のズレ
  • 論理関係の変化
  • 省略や追加
  • ニュアンスの変化

【出力】

  • 問題がある箇所のみ指摘

原文:
(元の英文)

再英訳:(戻した英文)


■ ⑤ 複数モデル比較(余裕があるとき)

以下は同一英文の複数の翻訳である。

【評価基準】

  • 原文への忠実性
  • 用語の一貫性
  • 逐語性

【指示】

  • 最も適切な訳を選ぶ
  • 必要なら統合する
  • 新たな解釈は加えない

訳A:
(Gemma)

訳B:(GPT-OSS)


■ ⑥ 用語抽出テンプレ(辞書育成)

以下の英文から専門用語を抽出せよ。

【条件】

  • 精神医学・精神分析に関連する語のみ
  • 一般語は除外
  • 重要度の高い語を優先

【出力形式】
英語 = 日本語候補


(原文)


■ ⑦ 実際の運用(これだけやればOK)

最小構成:


① 翻訳(①テンプレ)

② 用語チェック(②テンプレ)

③ 最後に整形(③テンプレ)


👉 これだけでかなり完成度高い


■ ⑧ さらに精度を上げるなら

  • 難しい段落だけ④
  • 迷ったら⑤
  • 新しい用語は⑥で追加

■ 最後に(重要)

このテンプレの本質はこれです:

モデルに「考えさせない」こと

  • 逐語訳を強制
  • 用語を固定
  • 勝手な解釈を封じる

ここまで整っていれば、
ローカルLLMでもかなり安定して「翻訳機」として動きます。


もし次にやるとしたら:

  • 用語辞書をあなた専用に最適化
  • 著者別(Freud / Kernbergなど)テンプレ分岐

このあたりが次のステップです。

タイトルとURLをコピーしました