MURAIzer(ムライザー)ID-POSデータの非会員顧客の性別推定と影響を与える商品群の特定

背景と目的

ポイントカードの普及により性別や年代といった顧客情報をレシート情報と紐づけた ID-POS データの活用が可能となり,購買層の分析などマーケティングに役立っています. しかし,ポイントカードを提示しない層や店舗で顧客情報を収集できない共通ポイントカードを利用する層が一定数存在するため,ID-POSデータに顧客情報が欠損したデータが含まれてしまいます. このような顧客情報が欠損したデータはID-POSデータの中で非会員顧客として分類され,分析に十分に活用されていません.

本研究では,ID-POSデータにおける欠損した顧客情報の推定を行います. これにより,データを分析に活用できる形に変換し,ID-POSデータの価値向上を狙います.



使用データを前処理

(1)使用データ

POS(Point Of Sale)データは,店舗での販売時に顧客が購入した商品情報を記録したデータです. ID-POSデータはPOSデータに顧客情報を紐づけたデータであり,誰が何を,いつ,何個,何円で購入したかという情報が記録されています.

今回使用するID-POSデータは,株式会社オークワで収集された和歌山県の2022年12月21日から2023年12月20日までの1年間のデータです.

各商品は階層構造で管理されており,本研究では各商品をAU,ライン,クラスで扱い,分析を行う(図1).

図1. 商品の階層構造
図1. 商品の階層構造

(2)予測のためのデータ加工

本研究では,レシートの購入商品と性別には関連性があると仮定します. そのため,レシートの購入商品を特徴量として機械学習を用いて性別予測を行います.

ID-POSデータを用いて非会員顧客の性別を予測するため,データをレシート番号単位で集約します(図1). これにより,1つのレシートを1つの購買行動として扱える形式にします.

図2. レシートデータの加工方法
図2. レシートデータの加工方法

XBoostによる性別予測

(1) 分析手法

本研究では,XGBoostを用いて性別推定モデルを構築します.XGBoostは,決定木を用いた勾配ブースティングアルゴリズムの実装であり,分類など様々なタスクで高い予測精度を持つことで知られています. 訓練データには2022年のデータを,テストデータには2023年のデータを使用して性別推定モデルを構築する. モデルの評価には交差検証を採用し,モデルの汎化性能を検証します.

モデルの学習後,特徴量の重要度(gain)を算出し,性別推定に寄与する商品群を明らかにします. XGBoostにおけるgainとは,各特徴量が分岐条件において損失関数(本研究では対数損失)をどれだけ改善したかを示す指標であり,特徴量の重要度を評価するために広く用いられる方法です. 具体的には,gainが高い特徴量は,性別推定において重要な役割を果たしていると考えられます.

(2)レシートの購入商品を用いた性別予測

データ加工の際,レシート番号単位で各商品をJANコードで集約してしまうとデータが膨大になってしまいます. 各商品は一定の粒度あれば十分と仮定し,AU,ライン,クラスの3つの粒度で集約し,データ加工を行います. また,AU,ライン,クラスの3つの粒度で集約したデータそれぞれに対して性別予測を行います. 各データに対してXGBoostを用いて性別予測を行い,正解率を比較します(表1).

表1. 商品分類ごとの性別予測結果
商品分類パターン
正解率(%)
AU
63.2
ライン
64.6
クラス
65.6

結果として,商品の分類をクラスレベルで扱ったとき,最も正解率が高くなる結果となりました. また,AUレベルで扱ったときは,正解率が最も低くなる結果となりました. そのため,商品の分類を細かくするほど正解率が向上する結果となりました.

(2)学習への影響が大きい特徴量の調査

ラインレベルの学習における特徴量重要度上位10件を示します(表2).

表2.ラインレベルの学習における特徴量重要度上位10件
部門
AU名
ライン名
重要度
農産
もぎたて広場
もぎたて生産者
45.3
清酒
清酒
20.5
しょうちゅう
単式蒸留焼酎
18.4
日配
冷凍食品
弁当
18.0
畜産
畜産惣菜
ころもつき
17.4
水産
鮮魚
切身
16.9
菓子
バンダイ,ちびっこ
バンダイ,ちびっこ
16.7
一般食品
粉類
粉類
16.2
畜産
ミンチ
ミンチ,ハンバーグ
16.2
第3ビール
第3ビール
15.0

最も重要度が高い特徴量は「もぎたて生産者」であり,地元産品や生産者直販商品への関心が性別で異なることが示唆されます. また,上位10件のうち,酒類が3項目占めています. このことから,酒類は性別による勾配の差が現れやすいと推測できます. さらに,簡便食品や半調理商品も多数上位に含まれており,加工済み商品や子供向け商品も学習への影響が大きいことがわかります.


参考文献

  1. 井口拓己,田井紗瑛子,吉野孝,貴志祥江,坂本明一,宮崎裕之,大西剛:ニューラルネットワークを用いた ID-POS データの非会員顧客の性別と年齢の推定,2023 年度情報処理学会関西支部支部大会講演論文集,G-20,pp.1–5 (2023).
  2. Boosting System,Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,pp.785–794 (2016).

関連対外発表

  1. 村井 源太,井口 拓己,田井 紗瑛子,吉野 孝:ID-POSデータの非会員顧客の性別推定と影響を与える商品群の特定,2025年電子情報通信学会総合大会 情報・システム講演論文集1,pp.63(2025).

連絡先

  • 村井 源太 : s276322 [at] wakayama-u.ac.jp
  • 吉野 孝 : yoshino [at] wakayama-u.ac.jp

研究紹介のページに戻る