和歌山市の地区別統計(国勢調査)を解析できる形に加工
1.政府統計の総合窓口 e-Stat
http://www.e-stat.go.jp
「地図で見る統計(統計GIS)」→「ダウンロード」→「平成17年国勢調査(小地域)」
「男女別人口総数及び世帯総数」「産業(大分類)・従業上の地位別就業者数」を選択
和歌山市を選択し、「男女別人口総数及び世帯総数」「産業(大分類)・従業上の地位別就業者数」をダウンロード、自分の情報処理のフォルダに保存する。
同様に、「世界測地系緯度経度・Shape形式」も保存する。
2.保存したデータを開く
インターネットで配信されている統計情報は、常にエクセル形式とは限りません。
今回はテキスト形式で保存されており、ファイルアイコンをダブルクリックしてもエクセルでは開けないはずです。
テキストエディタで開くと、文字列がカンマを挟んで並んでいることが分かります。
エクセルで開くには、まずエクセルを起動し、「ファイルを開く」で「すべてのファイル」とした上で開きます。
まずは人口のデータ「tblT000050C30201」を開いてみましょう。
テキストファイルウィザードが起動しますので、「カンマで区切られたデータ」として読み込んでください。
同様にファイル「tblT000070C30201」「h17ka30201.dbf」をエクセルで開いてみます。
ファイルを見比べてください。
教科書付属のデータと違い、加工が必要であることが分かります。
【国勢調査】
人口、性別、年齢、就業、世帯といったデータを調べる「全数調査」
国の最も重要かつ基本的な統計調査として、統計法に基づき総務大臣が10年ごとに国勢調査を実施することとされている。
西暦年の末尾が「0」の年の調査は大規模調査と呼ばれ、「5」の年の調査は簡易調査と呼ばれている。
3.人口密度の算出
和歌山市の面積は、h17ka30201.dbfファイルに「AREA」として納められています。
一方、人口の詳細は「tblT000050C30201」に、就業別人口は「tblT000070C30201」に納められています。
これらをどうやって整合させ、一つのファイルに格納するかが問題になります。
全てのファイルに共通している列項目は何でしょうか?
「KEY_CODE」に着目してください。

例えば、302015010の意味は、「30」が和歌山県、「201」が和歌山市、それ以降が地区を表しています。
国勢調査データの統一規則です。
このKEY_CODEを共有指標として、3つのファイルに分散された情報を一元化できるのではないでしょうか?
しかし、問題があります。
そう、市町村合併です。
そのため、データファイルの作成年代により、地区の数に誤差が生じてしまいます。
KEY_CODEを数の小さい順に並べ替え、データの結合を試みてもうまくいきません。
関数により解決するため、まずは「tblT000050C30201」「tblT000070C30201」「h17ka30201.dbf」の3つのファイルを、EXCEL2003形式にて(名前をつけて)保存してください。
以降、保存したEXCEL形式のファイルを用いて作業を進めていきます。
VLOOKUP関数によるデータの統合
上述の問題を解決するために、VLOOKUP関数を使用します。
この関数は、データ検索に有効でよく用いられますが、構造は難しいです。
=VLOOKUP(検索するデータ, 検索する表の範囲, 取り出したいデータの列位置, 検索の型)
ここで問題になるのが、ファイル「h17ka30201」のKEY_CODEは文字列として入力されているということです。
(セル右上に緑色のエラー表示)
他のファイルは数値です。
このため、VLOOKUP関数の検索時にエラーが生じてしまいます。
文字列を数値に変換するには、緑色のエラー表示を選択して一つずつ修正することもできますが、600以上のセルをその方法で直すのは現実的ではありません。
以下のような方法を用います。
まず、どこでもいいので、空白セルに数値の1を打ち込みます。
その後、1を打ち込んだセルをコピーします。
さらに、KEY_CODEの列にある数値が入力されたセルを全て選択し、「形式を選択して貼り付け」→「乗算」
これで文字列が数値に変換され、エラー表示が取りはらわれて数値が右寄せでセルに配置されます。
この後、KEY_CODEの列をコピーして、一番最初のA列に挿入しておきます。
ファイル「tblT000050C30201」のJ列2行目に「面積」と打ち込み、J列に各地区の面積を入れていきます。まずJ3に、以下の関数を入力します。
=VLOOKUP(A3, h17ka30201.xls!$A$1:$B$611, 2, 0)
この関数を全行に適用します。ここで、「$」マークは、関数中その直後の文字を固定する意味があります。
人口密度は、新たな列(K)に、人口総数(F列)÷面積(J列)で、km2単位で算出します。
次に、「tblT000050C30201」ファイルに、「tblT000070C30201」ファイルのF列「総数」以降の列を結合します。
なお、「tblT000070C30201」ファイルの行は、「tblT000050C30201」ファイルの行と完全一致しているので、該当部分のコピー&ペーストで構いません。
(ファイル間で行数や配列に不一致がある場合は、VLOOKUP関数が必須ですが、今回は特別にコピペでOKです)
これで、「tblT000050C30201」ファイルに、「h17ka30201.dbf」ファイルの「AREA」(面積m2)、「tblT000070C30201」ファイルのF列「総数」以降の列が集約されました。
4.グラフの作成
以上修正加工した「tblT000050C30201」ファイルのデータを元に、グラフを2つ作成する。
【例】
ファイル提出システムにより提出(期限は講義中に指示する)