第7回 行政統計の利用


  1. 本日の講義の目的

    これまでは教科書に基づき、乱数データ、付属データを用いてグラフ作成の訓練をしてきました。
    実際の調査研究で一番時間がかかり、重要なのは、データの取得と入力・整列(解析準備のため)です。

    今回から教科書を離れ、データ整備の重要性を体感してもらいます。
    最終的には自分でデータの整備からグラフ作成まで全て行い、レポートを提出してもらいますが、
    今回はデータ検索から整備まで一連の流れを説明します。

  2. 統計の検索

    日本では中央官庁から市町村、各種公共団体が数多くの統計情報を公開しています。
    特にインターネットが普及してからは、膨大な数の統計情報が、誰でも簡単にダウンロードできるようになりました。

    昔は図書館の統計コーナーに何日も入り浸り、統計を手書きで転記しなければなりませんでした。


    今でもこうした紙媒体の統計情報の重要性が薄れたわけではありません。
    特にデータベース化されていない古い資料などは、自分でエクセルに打ち込み、データベース化する意義が高いといえます。
    自分で整備したデータはオリジナリティが高く、価値あるものといえるでしょう。
    (誰でも使えるわけではない、自分だけのデータの価値は高い)


    以上の認識を持って、以下の作業に進みます



  3. 和歌山市の地区別統計(国勢調査)を解析できる形に加工


    1.政府統計の総合窓口 e-Stat

       http://www.e-stat.go.jp

    「地図で見る統計(統計GIS)」→「ダウンロード」→「平成17年国勢調査(小地域)」


    「男女別人口総数及び世帯総数」「産業(大分類)・従業上の地位別就業者数」を選択


    和歌山市を選択し、「男女別人口総数及び世帯総数」「産業(大分類)・従業上の地位別就業者数」をダウンロード、自分の情報処理のフォルダに保存する。
    同様に、「世界測地系緯度経度・Shape形式」も保存する。




    2.保存したデータを開く

    インターネットで配信されている統計情報は、常にエクセル形式とは限りません。
    今回はテキスト形式で保存されており、ファイルアイコンをダブルクリックしてもエクセルでは開けないはずです。
    テキストエディタで開くと、文字列がカンマを挟んで並んでいることが分かります。

    エクセルで開くには、まずエクセルを起動し、「ファイルを開く」で「すべてのファイル」とした上で開きます。
    まずは人口のデータ「tblT000050C30201」を開いてみましょう。


    テキストファイルウィザードが起動しますので、「カンマで区切られたデータ」として読み込んでください。


    同様にファイル「tblT000070C30201」「h17ka30201.dbf」をエクセルで開いてみます。

    ファイルを見比べてください。
    教科書付属のデータと違い、加工が必要であることが分かります。

    【国勢調査】
    人口、性別、年齢、就業、世帯といったデータを調べる「全数調査」
    国の最も重要かつ基本的な統計調査として、統計法に基づき総務大臣が10年ごとに国勢調査を実施することとされている。
    西暦年の末尾が「0」の年の調査は大規模調査と呼ばれ、「5」の年の調査は簡易調査と呼ばれている。


    3.人口密度の算出

    和歌山市の面積は、h17ka30201.dbfファイルに「AREA」として納められています。
    一方、人口の詳細は「tblT000050C30201」に、就業別人口は「tblT000070C30201」に納められています。
    これらをどうやって整合させ、一つのファイルに格納するかが問題になります。

    全てのファイルに共通している列項目は何でしょうか?

    「KEY_CODE」に着目してください。


    例えば、302015010の意味は、「30」が和歌山県、「201」が和歌山市、それ以降が地区を表しています。
    国勢調査データの統一規則です。
    このKEY_CODEを共有指標として、3つのファイルに分散された情報を一元化できるのではないでしょうか?

    しかし、問題があります。
    そう、市町村合併です。
    そのため、データファイルの作成年代により、地区の数に誤差が生じてしまいます。
    KEY_CODEを数の小さい順に並べ替え、データの結合を試みてもうまくいきません。

    関数により解決するため、まずは「tblT000050C30201」「tblT000070C30201」「h17ka30201.dbf」の3つのファイルを、EXCEL2003形式にて(名前をつけて)保存してください。
    以降、保存したEXCEL形式のファイルを用いて作業を進めていきます。



    VLOOKUP関数によるデータの統合

    上述の問題を解決するために、VLOOKUP関数を使用します。
    この関数は、データ検索に有効でよく用いられますが、構造は難しいです。

    =VLOOKUP(検索するデータ, 検索する表の範囲, 取り出したいデータの列位置, 検索の型)

    ここで問題になるのが、ファイル「h17ka30201」のKEY_CODEは文字列として入力されているということです。
    (セル右上に緑色のエラー表示)
    他のファイルは数値です。
    このため、VLOOKUP関数の検索時にエラーが生じてしまいます。
    文字列を数値に変換するには、緑色のエラー表示を選択して一つずつ修正することもできますが、600以上のセルをその方法で直すのは現実的ではありません。
    以下のような方法を用います。

    まず、どこでもいいので、空白セルに数値の1を打ち込みます。
    その後、1を打ち込んだセルをコピーします。
    さらに、KEY_CODEの列にある数値が入力されたセルを全て選択し、「形式を選択して貼り付け」→「乗算」



    これで文字列が数値に変換され、エラー表示が取りはらわれて数値が右寄せでセルに配置されます。

    この後、KEY_CODEの列をコピーして、一番最初のA列に挿入しておきます。


    ファイル「tblT000050C30201」のJ列2行目に「面積」と打ち込み、J列に各地区の面積を入れていきます。まずJ3に、以下の関数を入力します。
    =VLOOKUP(A3, h17ka30201.xls!$A$1:$B$611, 2, 0)
    この関数を全行に適用します。ここで、「$」マークは、関数中その直後の文字を固定する意味があります。
    人口密度は、新たな列(K)に、人口総数(F列)÷面積(J列)で、km2単位で算出します。

    次に、「tblT000050C30201」ファイルに、「tblT000070C30201」ファイルのF列「総数」以降の列を結合します。
    なお、「tblT000070C30201」ファイルの行は、「tblT000050C30201」ファイルの行と完全一致しているので、該当部分のコピー&ペーストで構いません。
    (ファイル間で行数や配列に不一致がある場合は、VLOOKUP関数が必須ですが、今回は特別にコピペでOKです)


    これで、「tblT000050C30201」ファイルに、「h17ka30201.dbf」ファイルの「AREA」(面積m2)、「tblT000070C30201」ファイルのF列「総数」以降の列が集約されました。







    4.グラフの作成

    以上修正加工した「tblT000050C30201」ファイルのデータを元に、グラフを2つ作成する。

    【例】






    ファイル提出システムにより提出(期限は講義中に指示する)