元のデータセットの中から、特定の列をピックアップして新しいデータフレームを作成する。新しく計算する際、定番の手順にもかかわらず、いつも忘れてしまい過去のやり方を確認しています。
チートシート
やりたいこと | コーディング |
---|---|
dfの列1と列2で新しい データフレームを作成する |
df = df[['列1' , '列2']] |
- 角括弧2つ [[ ]] で、列を指定すればいい
- チートシートのように、df に代入すると、df自体の列が指定されたものだけになる=他の列を削除したこととなる
サンプルオペレーション
1
2
3
4
# 任意の列で新しいデータフレームを作成する
print('before', df.shape)
df = df[['PY_02', 'PY_11']]
print('after', df.shape)
ビフォア、アフターでデータフレームのシェイプを確認する
1
2
# データフレームの先頭5行を見る
df.head()
カッコ内に数字をいれるとその数分、先頭から表示しますが、何も指定しないと 5行になります。