1背景と目的
多言語間コミュニケーションにおいて,同一の単語を用いて会話をしている場合でも,相手の文化について十分に理解していないために,誤解が生じる可能性があります.現在,文化差の有無の判断は,人が行なう必要がありますが,その判断には相手の文化に関する十分な知識が必要となるため,容易ではありません.そのため,文化差が存在することを自動的に検出する仕組みが求められています.そこで本研究では,文化差を検出・可視化するシステムの開発を行っています.
2Cocoticaの概要
本システムはWeb上で動作するシステムであり,PHPおよびMySQLで開発されています.利用しているサービスは,WikipediaとGoogle Imagesです.本システムは,ユーザが入力した語句を用いて,文化差の検出を行います.
図1. Cocoticaの文化差検出結果の画面 |
---|
※文化差の定義
- 第一種文化差:一方の文化圏で発生したり,存在したりしている「もの」や「こと」で,別の文化圏にも伝わっている場合でも,基本的には,もとの文化圏の内容を指しているもの.
- 第二種文化差:どちらの文化圏にも存在するが,それぞれの文化圏で意味の異なるもの.
3文化差検出手法
現在Cocoticaでは,日本語・中国語間の文化差検出に取り組んでいます.図2に文化差の検出手法の流れを示します.
図2. Cocoticaの文化差検出結果の画面 |
---|
4画像選択方式
本システムでは,文化の違いを直感的に理解させるために,画像を利用しています.しかし画像を提示する際,単純にある語句について画像検索を行い,提示すると,語句の持つ多様性により,意図した画像(適切な画像)が得られない場合があります. 図3に,SwaChicaの画像選択の失敗例として,「赤飯」という単語の文化差可視化結果を示します.
図3. 画像選択の失敗例 |
---|
Wikipediaの太字部分を用いた画像検索手法
本提案手法では,Wikipediaから,追加の検索語句を抽出し,それを用いて検索を行います.そこで,追加の検索語句として用いる語句として,Wikipediaに登場するBタグで囲まれた太字部分に着目しました.Wikipediaにおける太字部分は,その記事内容の語句と同じ概念,または単なる言い換えであると考えました. そこで,1つ目のパラグラフは,記事の見出しについて何を表すのか大まかに説明している文であることを利用します.1つ目のパラグラフでは,検索語句(見出し)が太字で表示されています.1つ目のパラグラフ内に見出し以外の太字部分が存在する場合,その太字部分は,検索語句と特に近い概念を表している可能性があります.提案手法における画像検索手順を以下に示します.
- 1つ目のパラグラフから,記事の見出しを抽出します.
- 追加の検索語として,1つ目のパラグラフに含まれる見出しとは異なる太字の語句を抽出します.
- 「検索語句 追加の検索語句」でGoogle Image Search APIで画像検索します.
ただし,1つ目のパラグラフに記事の記事の見出し以外の太字部分がない場合,本提案手法を適用することはできず,そのまま検索語句のみで検索することになります.
学術論文
- 諏訪智大,宮部真衣,吉野孝:日本語版・中国語版Wikipediaを用いた文化差検出手法の提案,情報処理学会論文誌,Vol.55,No.1,pp.257-226(2014-01)([PDF],689KB))
口頭発表
- 諏訪智大,宮部真衣,吉野孝:Webページにおける文化差可視化システムの開発,2012年度情報処理学会関西支部 支部大会,F-01,pp.1-4(2012)
- 諏訪智大,宮部真衣,吉野孝:Wikipediaを用いた文化差検出における誤検出語句の分析,電子情報通信学会,第8回異文化コラボレーション研究会(2013)
- 諏訪智大,宮部真衣,吉野孝:Wikipediaの言語間差異情報を用いた文化差検出手法の提案,2013年度情報処理学会関西支部 支部大会,F-01,pp.(2013)
連絡先
- 諏訪 智大:s145019 at sys.wakayama-u.ac.jp
- 吉野 孝:yoshino at sys.wakayama-u.ac.jp