1背景と目的
近年,訪日外国人や在日外国人は増加しています.しかし,日本語が理解できない外国人への対応は十分なものとは言えません.特に医療分野では,医療従事者と患者との正確なコミュニケーションが重要です.日本語が通じない外国人と日本人の医療従事者間のやりとりは,意思の疎通が十分に行えずに医療ミスが発生する可能性があるためです.
そこで本研究では,医療に関する正確な多言語用例対訳を収集・共有し,収集した用例を他の多言語対応システム(例:多言語問診票作成システム)に提供することによって外国人患者の支援を行うことを目的としています.
2多言語用例共有システムTackPad
多言語用例対訳共有システムTackPad(タックパッド)は,医療に関係する多言語用例対訳を収集しています.用例対訳とは,同じ意味の用例を多言語で集め,まとめて管理したものを指します.TackPadはWeb上のサービスのため,インターネットブラウザのみでシステムを利用することができます.現在は,日本語,英語,中国語,韓国語,ポルトガル語,スペイン語,ベトナム語,タイ語,インドネシア語の9か国の用例対訳を収集しています.
システムの構成は図1のようになっています.TackPadの主な機能としては,用例の提案,対訳の作成,用例対訳の検索の3つがあります.
図1. TackPadのシステム構成 |
---|
(1) 用例の提案
医療従事者や患者などが,他の言語に翻訳してほしい用例を提案する機能です.それぞれの立場から見て,必要と感じている用例をシステムに提案することができるので,本当に必要とされている用例対訳を集めることが可能となっています.
(2) 対訳の作成(翻訳を行う)
「用例の提案」で提案された用例を翻訳する機能です.翻訳支援機能として,翻訳元の言語と翻訳先の言語を指定すると,翻訳可能な用例をソートして表示する機能を用意しています.
(3) 用例対訳の検索
収集された用例対訳を検索する機能です.用例の検索のみではなく,用例を登録した人のコメントや,付けられたタグでの検索も可能となっています.
3TackPadの特徴
多言語用例対訳の収集では,翻訳者が重要な存在となっています.翻訳者の方が翻訳という仕事をしていると感じないようにする工夫として,図2のように楽しいイメージのシステム作りを行っています.また,他にも使いやすくする工夫をしています.
図2. TackPadの画面 |
---|
(1) プロジェクト型用例収集支援機能
TackPadでは,医療分野に関する用例対訳の登録を自由に行う事ができます.しかし,医療分野と言っても範囲が広く,利用者の人は難しいと考えられます.
そこで,「プロジェクト型用例収集支援機能」を用意しています.この機能では,用例の収集対象を「受付」や「薬局」などにあえて絞っています.また,収集期間を一週間から二週間程度に制限しています.収集対象分野を絞ることで,利用者は登録する用例を考えやすくなり,収集の促進が図れると考えられます.また,用例の収集期間を制限することで,効率的に用例の収集を行う事が可能だと考えられます.
(2) タグ機能
用例コーパスから目的の用例を探すときは,通常単語一致検索で行います.しかし,あるカテゴリに属する用例を探したいという要望にこたえることは困難です.TackPadでは,利用者が自由に追加することのできるタグを用意することで,検索をより行いやすくしています.
4用例対訳の正確性確保
TackPadに登録されている用例は,医療従事者や翻訳者が作成しています.収集された用例は他の多言語対応システムへ提供しますが,この時に重要となるのが“用例の正確性”です.しかし,登録された用例の正確性は用例作成者に依存しています.このため,用例作成者以外による用例の正確性の確保が必要となります.
(1) 評価機能
用例の正確性を確保するための機能です.TackPadでは,Web上の評価でよく利用される5段階評価ではなく,軸の両側に対義語を用意し評価対象の用例がどちらに近いかを評価する形を取っています(図3).また,一つのみではなく複数の評価基準を設けることで,評価者の意図をくみ取れるように工夫しています.
図3. 評価機能 |
---|
(2) Web検索を用いた不正確用例抽出手法
Web上に存在している言葉を利用して,収集した用例の正確性の自動判定を行っています.
本手法の流れは図4のようになっています.具体的には,次のような流れで行っています.
- 分析対象の用例を,N-gramデータに分割
- 1バイト文字(アルファベット)は単語ごとのN-gramに分割
- 2バイト文字(中国語,韓国朝鮮語など)は文字ごとのN-gramに分割
- 分割した文字列を完全一致で検索し,検索ヒット件数を記録
- 検索ヒット件数に閾値(図4中:SR閾値)を用意し,用例ごとに閾値を超えた分割文字列の割合を調べる
- 用例ごとに閾値を超えた分割文字列の割合に閾値(図4中:ES閾値)を用意し,閾値を超えた用例を正確,超えなかった用例を不正確と判定する
上記の手順は,SR閾値,ES閾値を変更して2回行います.閾値は不正確"単語"抽出(図4中:Tw)と不正確"文法"抽出(図4中:Tg)をそれぞれ目的としてチューニングすることで,様々な種類の不正確用例の抽出を可能としています.
図4. Web検索を用いた不正確用例抽出手法の流れ |
---|
(3) Web検索・機械翻訳を用いた用例対訳の自動正確性評価
(2)では,用例の正確性判定を行っていました.しかし,用例の組み合わせ,つまり言語間の意味の正確性判定は行っていませんでした.そこで,Web検索や機械翻訳を用いて用例対訳の自動正確性評価を行っています.
Web検索を用いた用例対訳の自動正確性評価は次の手順で行っています.
- 分析対象用例対訳を,形態素解析器で形態素ごとのN-gramデータに分割
- 分割したN-gramデータを用例間で組み合わせてWeb検索で検索し,検索ヒット件数を記録する
- 検索ヒット件数が1件以上の割合を用例対訳ごとに調べ,その割合が0%(ヒットしない)場合を「不正確用例対訳候補」とする
機械翻訳を用いた用例対訳の自動正確性評価は次の手順で行っています.
- 分析対象用例対訳のうち,翻訳元となった用例を機械翻訳で翻訳する
- 翻訳結果と翻訳先用例を,形態素解析器で形態素ごとのN-gramデータに分割
- 分割したN-gramデータを比較し,同一の単語が存在しない場合を「不正確用例対訳候補」とする
上記の二つを組み合わせて使用することで,言語間の意味が同じであるかどうかの自動判定を行っています.
5多言語問診票作成システム
TackPadで収集した用例の活用,用例収集の促進のために多言語問診票作成システムを開発しています.
初診の患者が日本の医療機関を訪れたとき,患者の症状を知るために問診票の記入を求めることが一般的です.しかし,外国人患者用の多言語問診票を用意している医療機関は多くありません.PDF形式の多言語問診票も用意されていますが,あらかじめ用意された症状から選ぶ形式のため,患者の詳細な症状伝達が難しいという問題点があります.そこで,Web上で多言語問診票の作成を可能とする多言語問診票作成システムの開発を行っています.
問診票入力機能
本機能は,患者が母語で問診票を入力する機能です.病院の受付で利用することを想定しています.
本システムでは,あらかじめ翻訳し,正確性を確保した「用例対訳」と,患者が入力した言葉をその場で翻訳する「機械翻訳」を併用しています(図5).図5は,母語が英語の患者用の画面です.患者は母語で入力し,システムが提示した母語から自分の意図に沿うものを選択します.このようにして問診票の入力を行うと,最後に医療従事者の言語と患者の言語を併記した多言語問診票のPDFを出力します.この多言語問診票を用いることで,医療従事者が患者の症状理解を促進できると考えられます.
図5. 多言語問診票作成システム翻訳入力画面例 |
---|
6今後の課題
- 用例対訳の自動正確性評価の評価性能向上,評価用データセットの作成
- 用例対訳収集の促進
- 用例をWebサービスで他のシステムに提供する機能の追加(連携先例:多言語医療受付支援システムM3)
学術論文
- 福島拓,吉野孝:用例の正確性評価を目的とした用例評価手法の比較,情報処理学会論文誌,Vol.52,No.1, pp.131-139(2011-01).
口頭発表
- 福島拓,宮部真衣,吉野孝,西村竜一,重野亜久里:医療分野を対象とした多言語発話収集WebシステムOTOCKERの開発,電子情報通信学会技術研究報告,AI2007-14,pp.17-22(2007-11).
- 福島拓, 宮部真衣, 吉野孝, 重野亜久里:医療分野を対象とした多言語用例対訳収集WebシステムTackPadの開発,マルチメディア,分散,協調とモバイル(DICOMO2008)シンポジウム,pp.1030-1036(2008-7).
- 福島拓, 吉野孝, 重野亜久里:多言語用例対訳共有システムTackPadの評価機能の実現と評価,情報処理学会研究報告,グループウェアとネットワークサービス研究会,2009-GN-70(21),pp.121-126(2009-1).
- 福島拓,吉野孝,田淵裕章,北村泰彦:多言語用例対訳を用いたコミュニケーションのための応答用例対作成システムの開発,マルチメディア,分散,協調とモバイル(DICOMO2009)シンポジウム,pp.1612-1618(2009-07).
- 福島拓,吉野孝,重野亜久里:多言語用例対訳共有システムTackPadの用例評価手法の評価,FIT2009 情報科学技術フォーラム,pp.411-412(2009-09).
- 福島拓,吉野孝:多言語用例対訳共有システムTackPadにおける用例評価手法の比較,情報処理学会,グループウェアとネットワークサービスワークショップ2009,pp.87-92(2009-09).
- 福島拓,吉野孝,重野亜久里:多言語用例対訳共有システムのための用例間評価手法の評価,情報処理学会第72回全国大会,第2分冊,pp.485-486(2010-03).
- 福島拓,吉野孝,重野亜久里:多言語用例対訳共有システムにおけるプロジェクト型用例収集支援機能の設計と評価,マルチメディア,分散,協調とモバイル(DICOMO2010)シンポジウム,pp.126-132(2010-07).
- 福島拓,宮部真衣,吉野孝:正確な多言語コミュニケーション支援のための動的用例対訳連携モデルの提案と実装,FIT2010 情報科学技術フォーラム,第3分冊,pp.549-550(2010-09).
- 福島拓,吉野孝,重野亜久里:用例対訳を用いた多言語問診票作成システムの開発と評価,情報処理学会研究報告,グループウェアとネットワークサービス研究会,2011-GN-78(14), pp.1-7(2011-01).
- 福島拓,吉野孝:Web検索を用いた不正確用例抽出手法の提案と評価,電子情報通信学会研究報告,第2回集合知シンポジウム,NLC2010-42,pp.65-70(2011-01).
- Taku Fukushima, Takashi Yoshino, and Aguri Shigeno: Proposal and Evaluation of an Extraction Method for Inaccurate Example Sentences Using a Web Search Engine for Multilingual Parallel Texts, 2011 Workshops of International Conference on Advanced Information Networking and Applications, pp.538-543(2011-03).
受賞
- マルチメディア,分散,協調とモバイル(DICOMO2008)シンポジウム ヤングリサーチャ賞(2008-07)
- マルチメディア,分散,協調とモバイル(DICOMO2008)シンポジウム 優秀論文賞(2008-08)
- マルチメディア,分散,協調とモバイル(DICOMO2009)シンポジウム ヤングリサーチャ賞(2009-07)
連絡先
- 福島 拓:fukushima at yoslab.net
- 吉野 孝:yoshino at sys.wakayama-u.ac.jp