マイクロブログを用いた郷土料理のおいしさ情報の取得とChatGPTの利用法の検討

背景と目的

観光において,飲食は重要であり,特に「郷土料理」は,観光客にとって,最も重要な要素の1つとなっています. しかし,郷土料理のおいしさについて調査する際には,観光地からの情報が観光客視点の情報とは乖離している可能性があったり,膨大な情報量をもつインターネットから,必要な情報を探し出すのに多くの時間を要したりといった問題が存在します.

Twitter(現X,https://twitter.com)のようなマイクロブログは,ユーザが日常的に感じたことなどを簡単に投稿できることから,投稿されている観光客視点でのおいしさ情報を取得することができる可能性があります. しかし,郷土料理名での検索などによる取得結果の中には,郷土料理のおいしさ情報に関係のない情報が含まれる場合があり,そのような情報の除外が必要となります.

ChatGPT(https://chat.openai.com)は,入力するテキストの文脈に基づいた処理を行うことができます. また,「プロンプト」と呼ばれる指示文を用いることによって,処理内容を指示し,指定した形式で出力結果を得ることができます. このような特徴から,マイクロブログから郷土料理のおいしさ情報を取得する際にChatGPTを用いることで,おいしさ情報に関係のない情報を除外しながら,有用な観光客視点での,郷土料理のおいしさ情報が取得可能であると考えられます.

また,「サクサク」や「じゅわー」といった,食品のおいしさを表す表現として「シズルワード」があります. シズルワードは,おいしさの分析を行う様々な研究に用いられており,食品のおいしさ情報の有無の指標になると考えられます.

以上のことから,本研究では,郷土料理のおいしさ情報を取得する際における,マイクロブログの利用可能性を検証します. また,実際にマイクロブログから郷土料理のおいしさ情報を取得する際における,ChatGPTの利用法を検討します.



マイクロブログの利用可能性の検証

(1) 対象とする郷土料理

本研究では,長野県の郷土料理から4つ,広島県の郷土料理から4つ,計8つの郷土料理を対象としました. 具体的には,表1に示す郷土料理を対象としました.

表1. 対象とする郷土料理
知名度
長野県の郷土料理
広島県の郷土料理
おやき
あなご飯
五平餅
広島風お好み焼き
朴葉巻
角寿司
のたもち
煮ごめ

(2) 対象とするシズルワード

本研究では,「おいしいを感じる言葉 SizzleWord Report 2022」に掲載されている系統別シズルワードランキングにおける,味覚系,食感系,情報系,感情系の4系統のシズルワード,各系統上位30語,計120語を対象としました.


(3) 検証データ

本研究では,マイクロブログの利用可能性を検証する際に,以下の4種類のテキストデータを用いました.


マイクロブログデータ
Twitterから取得した,各郷土料理名,およびそれらの表記揺れを含むツイートデータ.
Twitterの公式APIを用い,2023年5月1日までに投稿された,郷土料理の各表記を含むツイートを,最新のものから,各表記につき最大50,000件ずつ収集しました.

レシピ共有Webサイトデータ
クックパッド(https://cookpad.com)におけるレシピデータ.
レシピタイトルに各郷土料理名,およびそれらの表記揺れを含むレシピデータを,国立情報学研究所のIDRデータセット提供サービスにより,クックパッド株式会社から提供を受けた「クックパッドデータセット」(https://www.nii.ac.jp/dsc/idr/cookpad)から収集しました. また,この時点でレシピデータ数が100件に満たない郷土料理について,「クックパッドデータセット」に含まれていないレシピデータを,クックパッドのWebサイト(https://cookpad.com)から手作業で収集しました.

アンケートデータ
各郷土料理について,飲食経験の有無別に各15人以上に対して実施したアンケートデータ.
アンケートでは,飲食経験がある回答者については,その郷土料理の飲食経験についての感想や状況,飲食経験がない回答者については,その郷土料理の画像を提示し,そこから想像できる郷土料理のおいしさや飲食欲求について,回答していただきました.

郷土料理紹介Webサイトデータ
郷土料理についての情報を掲載しているWebサイトにおけるテキストデータ.
以下のWebサイトから,各郷土料理に関するテキストでの情報を収集しました.

(4) 検証手順

本研究では,郷土料理のおいしさ情報を取得する際における,マイクロブログの利用可能性を検証するために,以下の手順で検証を行いました.

  1. 各検証データについて,前処理を行い,シズルワードを取得しました.
  2. シズルワードの取得結果から,各検証データの,郷土料理のおいしさ情報取得における特徴を検証しました.

また,マイクロブログデータ内に含まれているシズルワードについて,実際に郷土料理のおいしさ情報を表現しているかを,目視で確認しました.


(5) 検証結果

各検証データにおける検証結果として,それぞれ以下のような特徴があることが分かりました.


マイクロブログデータ
  • 取得できるテキストの内容が多岐にわたり,様々な状況におけるおいしさ情報が取得できる.
  • 4系統のシズルワードについて,まんべんなく取得できる.
  • 比較的知名度が低い郷土料理についても,取得量が減るものの,おいしさ情報を取得できる.
  • 料理関連以外にも様々な内容のテキストが投稿されていることから,郷土料理のおいしさ情報に関連しないシズルワードが取得結果内に混入することがある.

レシピ共有Webサイトデータ
  • 郷土料理名をレシピタイトルに含んでいても,実際には郷土料理そのもののレシピデータとなっていない場合がある.
  • レシピデータの内容が,投稿したユーザの独自のレシピであることが多く,郷土料理のおいしさ情報が取得できても観光時に利用できない可能性がある.
  • 比較的知名度が低い郷土料理については,おいしさ情報を取得することができない.

アンケートデータ
  • おいしさ情報取得の上では,精度が高い.
  • 比較的知名度が低い郷土料理についても,飲食経験がある回答者を探したり,郷土料理の画像を提示することにより,おいしさ情報が取得できる.
  • アンケート実施の際には時間と経費が必要となるため,データ取得の難易度が高い.

郷土料理紹介Webサイトデータ
  • 郷土料理について,調理の概要や,食文化としての歴史や特徴などを紹介する内容のテキストが多く,郷土料理の調理に関するおいしさ情報を取得しやすい.しかし,表現の種類が限られているため,取得できる郷土料理のおいしさ情報が少ない.
  • 比較的知名度が低い郷土料理については収集できるデータが少なく,おいしさ情報が取得できない.

以上の結果から,他のテキストデータと比べ,マイクロブログからは,郷土料理のおいしさ情報がまんべんなく取得できるが,おいしさ情報に関連しない情報も多く含まれることがわかりました. このため,実際にマイクロブログから郷土料理のおいしさ情報を取得する際には,郷土料理のおいしさに関連しない情報を除外しながら取得する必要があります.



ChatGPTの利用法の検討

(1) 検討手法の概要

本研究では,マイクロブログから郷土料理のおいしさ情報を取得する際における,ChatGPT(gpt-4-1106-preview)の利用法を検討しました. ChatGPTは,入力するテキストの文脈に基づいた処理を行うことができます. また,プロンプトを用いることによって,処理内容や出力結果の形式を指示することができます. これらのような特徴から,実際にマイクロブログから郷土料理のおいしさ情報を取得する際にChatGPTを活用することで,郷土料理のおいしさに関連しない情報を除去しながら,より精度高くおいしさ情報を取得できると考えられます.


具体的には,以下の手順でChatGPTを用いました.

  1. マイクロブログから取得した郷土料理名を含むテキストについて,郷土料理のおいしさに関連する部分の抽出を,プロンプトを用いてChatGPTに指示し,処理を行いました.
  2. ChatGPTによる抽出結果から,シズルワードを取得しました.

(2) 実験に用いるデータ

本研究では,マイクロブログの利用可能性の検証の際に目視で確認した,五平餅,およびあなご飯についてのツイートデータにおける,シズルワードを含む文,各1,000件を実験に用いました.


(3) 実験に用いるプロンプト

本研究では,ChatGPTの利用法の検討の際に,プロンプトを用います. また,具体的なプロンプトとして,郷土料理のおいしさ情報が取得できると考えられる7種類のプロンプトを用意し,用いました.

表2に,各プロンプトにおける意図を示します.

表2. 検討プロンプトにおける意図
プロンプト名
意図
基本型
入力文であるツイートデータからの,郷土料理のおいしさ情報にあたる部分の抽出を指示
情報・感情型
おいしさを表現する部分として認識されにくいと考えられる,情報系や感情系のシズルワードの部分を抽出することを促すために,基本型のプロンプトに加え,「おいしさや情報,感情を表現する部分」を抽出するように指示
逆順型
基本型のプロンプトに加え,郷土料理に関連する情報を抽出することを強調するために,郷土料理名をプロンプトの後半に移動
旅行型
飲食経験や旅行,観光の感想として用いられ,かつそれらの要素の1つとして郷土料理が関連する,感情系シズルワードの部分を抽出することを促すために,基本型のプロンプトに加え,郷土料理の飲食経験や旅行に関連する部分について,追加抽出を指示
シズルワード型
シズルワードがおいしさ情報を表現する部分として抽出されることを促すために,基本型のプロンプトに加え,4系統のシズルワード,計120語の情報を提示
振り返り型
出力内容の精度を向上させるために,基本型のプロンプトに加え,出力前に1度,郷土料理のおいしさ情報として適切な抽出結果かを確認するよう指示
総合型
おいしさ情報についての全体的な取得精度の向上を図るために,上記の6種類のプロンプトを全て組み合わせて構成

(4) 実験手順

本研究では,各プロンプトを用いて,以下の手順で実験を行いました.

  1. 五平餅,およびあなご飯のそれぞれについて,ツイートデータ内のシズルワードを含む文を,プロンプトと共にChatGPTに入力し,処理を行いました.
  2. ChatGPTによる抽出結果から,シズルワードを取得しました.
  3. 目視によるシズルワードの取得結果を正解データとし,ChatGPTによるシズルワードの取得結果と比較することで,ChatGPTの利用法を検討しました.

また,複数のプロンプトにおけるそれぞれの取得結果について,アンサンブル学習のように統合し,取得精度の向上を図りました.


(5) 実験結果

実験結果として,以下のことが分かりました.


  • 各プロンプトにおける,1文ごとでの,目視での取得結果との一致度の分布を図1に示します. 図1から,目視での取得結果と完全一致している割合が最も高いのは逆順型プロンプトを用いた場合となっています. また,逆順型プロンプトを用いた場合,五平餅,およびあなご飯のどちらについても,約77%の文において,目視での取得結果と完全一致しており,ある程度の一致度があります. このことから,ChatGPTの利用法は有用である可能性があるといえます.
    図1. 各プロンプトにおける,1文ごとでの,目視での取得結果との一致度の分布
    図1. 各プロンプトにおける,1文ごとでの,目視での取得結果との一致度の分布

  • シズルワード全体における取得精度が最も高い逆順型プロンプトに加え,感情系のシズルワードの取得精度向上を目指した旅行型プロンプトについて考え,シズルワードの各系統での一致度の分布を算出した結果を,図2に示します. 図2から,味覚系,および感情系のシズルワードでは,逆順型プロンプトよりも旅行型プロンプトの方が,目視での取得結果との一致度が高いことがわかります. このことから,シズルワードの各系統のそれぞれにおいて,おいしさ情報の取得に適したプロンプトが存在するといえます.
    図2. 各系統での,逆順型,旅行型のプロンプトにおける,一致度の分布
    図2. 各系統での,逆順型,旅行型のプロンプトにおける,一致度の分布

  • 各プロンプトにおける取得結果をアンサンブル学習のように統合し,単一プロンプトの場合と比較した結果を,表3に示します. 表3から,シズルワード全体において,複数のプロンプトの取得結果を統合した場合の方が,単一プロンプトの場合よりも,取得精度が高いことがわかります. また,シズルワードの系統ごとに見ると,単一プロンプトでの取得精度が比較的低い,情報系,感情系のシズルワードについては,複数のプロンプトの取得結果を統合したことにより,取得精度が向上していることがわかります. このことから,単一プロンプトにおける取得精度が比較的低い系統のシズルワードにおいて,複数のプロンプトの取得結果を統合することで,取得精度の向上が期待できるといえます.
    表3. 各系統における,プロンプトの個数ごとの,取得結果が完全一致している割合
    系統
    プロンプトの個数
    五平餅
    あなご飯
    全体
    単一プロンプトの最高値
    77.6%
    76.2%
    複数プロンプト
    78.0%
    77.1%
    味覚系
    単一プロンプトの最高値
    84.2%
    86.9%
    複数プロンプト
    83.5%
    86.9%
    食感系
    単一プロンプトの最高値
    80.0%
    90.1%
    複数プロンプト
    80.0%
    89.4%
    情報系
    単一プロンプトの最高値
    79.3%
    70.6%
    複数プロンプト
    81.5%
    73.6%
    感情系
    単一プロンプトの最高値
    77.4%
    73.7%
    複数プロンプト
    78.1%
    77.1%

  • ChatGPTの利用法によって,目視での約2.7倍の速度でおいしさ情報の取得を行うことができることが分かりました. しかし,ChatGPTを利用する際には金銭面のコストが発生するため,そのコストを考慮する必要があります. また,2023年12月時点で,ChatGPTのAPIを利用する際には,一定時間における利用可能量が制限されているため,その制限を超える量のテキストを処理する場合は,時間面のコストも発生することがあります.

参考文献

  1. B・M・FT:おいしいを感じる言葉 SizzleWord Report 2022,株式会社ビー・エム・エフティー(2022).
  2. クックパッド株式会社:クックパッドデータ,国立情報学研究所情報学研究データリポジトリ,(データセット),https://doi.org/10.32130/idr.5.1(2015).

関連対外発表

  1. 石橋明大,平林(宮部)真衣,四方朱子,吉野孝:郷土料理のおいしさ想起のためのマイクロブログの利用可能性の検証,2023年度情報処理学会関西支部支部大会講演論文集,G-01,pp.1–7(2023).
  2. 石橋明大,平林(宮部)真衣,四方朱子,吉野孝:マイクロブログにおける郷土料理のおいしさ情報取得手法の検討,研究報告コラボレーションとネットワークサービス(CN),2024-CN-121,CN-06,pp.1–8(2024).
  3. 石橋明大,平林(宮部)真衣,四方朱子,吉野孝:マイクロブログ中のおいしさ情報取得精度向上のためのChatGPT利用方法の検討,電子情報通信学会総合大会講演論文集,IEICE総合大会,D-5-06,p.1(2024).

連絡先

  • 石橋 明大 : s256015 [at] wakayama-u.ac.jp
  • 吉野 孝 : yoshino [at] wakayama-u.ac.jp

研究紹介のページに戻る