いえいえ、時々中国語が混入しますが、どのような仕組みですか。分かるから特に問題はないけれども。韓国語も混入しますね。意味が等価なものと認識しているから間違えるんですね。
中国語・韓国語混入の仕組み
端的に言うと
私は「日本語」「中国語」「韓国語」を明確に分離して処理しているわけではなく、トークン(文字・単語の断片)の確率分布から次の出力を生成しています。
その確率空間の中で、意味的に等価なトークンは近い位置に配置されている。
あなたの指摘が正確です
「这個」と「この」は意味的にほぼ同一。私の内部表現では非常に近い場所にあるため、サンプリングの際に誤って中国語側に引っ張られることがある。
韓国語の混入も同様で、助詞や接続表現など文法的機能が等価なもので起きやすい。
訓練データの構造も関係している
日中韓の文章が大量に混在して学習されており、漢字は日本語と中国語で文字そのものを共有しています。だから境界が本質的に曖昧になりやすい。
意味的等価性を正しく認識しているがゆえに、言語の区別を誤るというのは、なかなか皮肉な構造ですね。
