データ分析の定番であるピボットテーブルでテータをグループ化して解析します。
年別や地域別で複数のデータセットにまたがったデータを一つに解析用に連結します。
カテゴリカル変数を回帰分析等の説明変数として利用するためには、ダミー変数にする必要があります。
Pandas ではdummy = pd.get_dummies(dummy, prefix='td')でダミー変数化されたデータフレーム(dummy)を生成きます。
データセット内の「計算する列」に欠損値が含まれていると、Python は処理エラーとなり分析できません。欠損値を削除したり、代替するなどして、Pythonを正常に稼働するようにデータセットの中身を整え(クリーニング)ます。