愛知県オープンデータを用いたpandasの勉強|Python

14 アクセス

はじめに

この記事では、Pythonのライブラリの一つであるPandasの使い方をオープンデータを利用しながら学んでいく。
今回はcsvファイルを読み込むところまで。
データ解析のときに、二次元リストやnumpyの二次元配列を使うのではなく、データフレームの機能を使いこなせるようになりたい。

この記事は、以下の著作物を改変して利用しています。
あいちの人口(2024年9月1日現在) 愛知県人口動向調査結果 月報、愛知県、クリエイティブ・コモンズ・ライセンス
表示2.1日本(http://creativecommons.org/licenses/by/2.1/jp/

実行環境

マシン:MacBook Air
チップ:Apple M3
Python:Python3.12.5
pip:pip 24.2

Pandasのインストール

pipを使うだけ

データのダウンロード

今回は、愛知県の推計人口データ(csvファイル)を利用する。
https://www.pref.aichi.jp/soshiki/toukei/jinko1new.html
他にも、「オープンデータ」で検索すると、政府や自治体の統計情報が利用できるので、興味をもったものをダウンロードするといいと思う。

ダウンロードしたら、ソースコードと同じディレクトリに移動し、ついでにファイル名も分かりやすいように変更しておく(今回はpopulation.csv)

データを読み込んで表示するプログラム

以下のプログラムは、人口データをデータフレームに読み込み、データフレーム、values、colums、indexを表示するプログラム

import pandas as pd

# csvファイルをデータフレームに読み込む
df = pd.read_csv('population.csv', encoding='shift_jis')
# データフレームの中身を表示
print(df)
print('\n')

print('df.valuesの型:',type(df.values))
print(df.values)
print('\n')

print('df.columsの型:',type(df.columns))
print(df.columns)
print('\n')

print('df.indexの型:',type(df.index))
print(df.index)

注意点
csvファイルを読み込むときに文字コードが間違っているとエラーが発生する。
今回、初めはutf-8で読み込んでいたせいでうまく動かなかった。

実行結果(長いので一部省略)

valuesがデータ、columsが列ラベル、indexが行ラベルだと考えればよさそう

おわりに

今後はソートや、グラフで可視化ができたらと考えている
次の記事→Pandasで条件を満たす行を抽出する|Python

Comments

“愛知県オープンデータを用いたpandasの勉強|Python” への3件のフィードバック

  1. hdkworksのアバター

    自治体のデータを使うのは、夢が広がりますよね。自治体のデータは、権利関係、具体的には、著作権などうなるんでしょうか?自治体のデータを使って作ったいわゆる2次創作物は、配布自由ですか?

    1. kobayashiのアバター
      kobayashi

      自治体のオープンデータは商用利用可、加工・再頒布可のライセンスがあります。
      今回使用したデータは、CC-BYという出典の明記が必要なライセンスなので本文中で以下のように記述しています。

      この記事は、以下の著作物を改変して利用しています。
      あいちの人口(2024年9月1日現在) 愛知県人口動向調査結果 月報、愛知県、クリエイティブ・コモンズ・ライセンス
      表示2.1日本(http://creativecommons.org/licenses/by/2.1/jp/)

      二次創作物(今回でいえば私の記事)の著作権は創作者(私)に帰属します。

      1. hdkworksのアバター

        クリエイティブコモンズライセンスなんですね!ありがとうございます。勉強になりました!

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です