1背景と目的
現在,世界規模のインターネットの普及により,ネットワークを介した多言語コミュニケーションの機会が増加しています.一般に,多言語を十分に習得することは容易ではないため,機械翻訳を利用した取り組みが行われています.しかし,機械翻訳の精度には限界があり,完全な翻訳を行うことは困難です.不適切な翻訳箇所を含む文章の利用は,円滑なコミュニケーションを妨げてしまいます.
本研究では,機械翻訳を用いた正確なコミュニケーションを支援するために,翻訳不適箇所の少ない文章を作成する方法の1つである「翻訳リペア」の支援手法について検討・検証を行っています.
2翻訳リペア
機械翻訳により得られた文に不適切な翻訳箇所が存在した場合,それらを減少させるために入力文を書き換えていくことを「翻訳リペア」と呼んでいます.
一般に,母語ではない言語の翻訳文を見て,不適切な翻訳箇所を見つけ出すのは容易ではありません.そのため,翻訳文を理解できるようにするため,折り返し翻訳(翻訳結果の母語への再翻訳)を利用しています.翻訳リペア作業は,入力文と折り返し翻訳文を比較し,折り返し翻訳文の内容が正しくなければ入力文を修正するという作業であり,翻訳精度を向上させることができます(図1).
![]() |
図1. 翻訳リペアの流れ |
---|
3翻訳リペアの支援
翻訳リペアを行うことで,折り返し翻訳精度を向上させることができます.しかし,精度向上には相応のリペアコスト(修正時間,修正回数)を要します.翻訳リペアを実際のコミュニケーションへ適用するためには,リペアコストを軽減する必要があります.
翻訳リペアにおけるユーザの主な作業は,修正の必要な語句の言い換え作業です.しかし,言い換え内容を考えだすことは容易ではありません.言い換える内容として類義語,関連語を利用し,言い換え文を自動生成することにより,ユーザのリペア作業を支援できる可能性があります.本研究では,「翻訳不適箇所の推定」「言い換え候補の抽出」を組み合わせて,言い換え文の自動生成を実現しています.
(1) 翻訳不適箇所の推定
翻訳リペア支援手法の一つとして,形態素解析を利用した翻訳不適箇所の推定を実現しています.形態素解析器MeCabを利用し,入力文および折り返し翻訳文の形態素解析を行い,各文の単語(名詞,動詞)を比較することにより,翻訳の不適切な箇所を推定し,ユーザに提示します(図2).
![]() |
図2. 翻訳不適箇所の指摘の流れ |
---|
(2) 言い換え候補の抽出
言い換え候補となる類義語や関連語は多様であり,膨大な量の言い換え候補が提示される可能性があります.また,もとの単語と言い換え候補を置き換えた場合,不自然な文になる場合もあり,言い換えを行う文の文脈に応じて,適切な言い換え候補は異なると考えられます.
不適切な言い換え候補を除外するために,Web 日本語N グラムを用いたフィルタリングを行います.本研究では,インターネット上の類語辞書により言い換え候補を取得します.原文中の単語のうち,折り返し翻訳文中に存在せず,その言い換え候補も折り返し翻訳文中に存在しないものを「言い換え対象語」とし,取得した言い換え対象語のフィルタリングを行います.
言い換え候補の取得およびフィルタリングは以下の手順で行っています.
- 機械翻訳により,入力文の折り返し翻訳文を取得する.
- 形態素解析器MeCabを利用し,入力文および折り返し翻訳文の形態素解析を行う.
- 入力文中の単語(名詞,動詞)のうち,折り返し翻訳文中に存在しない単語を抽出する.
- 抽出した単語の言い換え候補をインターネット上の類語辞書により検索する.
- 取得した言い換え候補が折り返し翻訳文中に存在しない場合,その類義語のもととなる単語を言い換え対象語とする.
- 入力文中の言い換え対象語とその言い換え候補を置き換える.
- Web日本語Nグラムを利用し,置き換えた言い換え候補とその前後の単語の組み合わせの出現頻度を求める.
- 出現頻度が設定した閾値以下である場合,言い換え候補から外す.
(3) 言い換え文の自動生成
翻訳不適箇所の推定と言い換え候補の抽出を行った後,抽出した言い換え候補をもとに言い換え文の自動生成を行います(図3).
![]() |
図3. 言い換え文生成の流れ |
---|
4今後の予定
今後は,翻訳リペアを支援するために以下の支援手法について検討し,その効果について検証を行います.
- 文の類似性判定の精度向上
- より高精度な言い換え文の生成
学術論文
- 宮部真衣,吉野 孝,重信智宏: 折り返し翻訳を用いた翻訳リペアの効果,電子情報通信学会論文誌,Vol.J-90-D-I,No.12,pp.3141-3150(2007).
- 宮部真衣,吉野 孝:翻訳不適箇所の指摘による翻訳リペア効率の改善効果の検証,情報処理学会論文誌,Vol.50,No. 4,pp.1390-1398(2009).
口頭発表
- 宮部真衣,吉野 孝,重信智宏:折り返し翻訳を用いた翻訳リペア効果の評価,電子情報通信学会,思考と言語研究会,TL2006-38,pp.43-48(2006).
- 宮部真衣,吉野 孝:翻訳不適箇所指摘による翻訳リペア効率の改善効果,FIT2007 情報科学技術フォーラム,Vol.5,pp.435-436(2007).
- 宮部真衣,吉野 孝:翻訳不適箇所指摘による翻訳リペアコストと翻訳リペア精度の評価,情報処理学会デジタルドキュメント研究会,DD-63,pp.29-36(2007).
- 宮部 真衣, 吉野 孝:翻訳リペア支援のためのWeb日本語Nグラムを用いた類義語フィルタリング,電子情報通信学会,人工知能と知識処理研究会,AI2008-38,pp.85-90 (2008).
- Mai Miyabe, Takashi Yoshino, and Tomohiro Shigenobu: Effects of Repair Support Agent for Accurate Multilingual Communication, PRICAI2008, LNCS5351, pp.1022-1027(2008).
- Mai Miyabe, Takashi Yoshino, Tomohiro Shigenobu: Effects of Undertaking Translation Repair using Back Translation, Proceedings of the 2009 ACM International Workshop on Intercultural Collaboration (IWIC'09), pp.33-40(2009). (Best paper award nominee)
- 宮部真衣,吉野 孝:折り返し翻訳における中間言語の精度評価,情報処理学会,デジタルドキュメント研究会,Vol.2009-DD-71 No.4,pp.1-6(2009).
- 宮部真衣,吉野 孝:折り返し翻訳とその中間言語における翻訳精度の検証,FIT2009 情報科学技術フォーラム,第3分冊,pp.407-410(2009)
- Mai Miyabe, Takashi Yoshino: Accuracy Evaluation of Sentences Translated to Intermediate Language in Back Translation, 3rd International Universal Communication Symposium (IUCS 2009), ACM , pp.30–35(2009).
- 宮部 真衣, 吉野 孝:機械翻訳を介したコミュニケーションのための折り返し翻訳の妥当性の検証,電子情報通信学会技術報告,人工知能と知識処理,AI2009-41,pp.65-70(2010).
- 宮部真衣,吉野 孝:翻訳リペア支援のための言い換え文自動生成手法の提案,情報処理学会第72回全国大会,第2分冊,pp.43-44(2010).
連絡先
- 宮部 真衣:s085051 at sys.wakayama-u.ac.jp
- 吉野 孝:yoshino at sys.wakayama-u.ac.jp