二つ以上のデータフレームを結合し、データをクリーニングする際、よく必要となるデータフレーム内の異なる列間で値の一致、不一致を調べる関数を紹介します。
最新のPyPDF2のモジュールを利用してPDFからテキストデータを取り込み方についてまとめたいと思います。
まず、単一PDFファイルの内容をテキストファイルに書き出しについてまとめます。
datetime モジュールは、日付や時刻を操作するためのクラスで、これにより日付や時刻に対する四則演算が可能です。日時のオブジェクトは、それがタイムゾーンの情報を含むかどうかによって “aware”(タイムゾーン情報あり)または “naive”(情報なし)に分けることができます。
Jupyter Notebook を使うにあたり、まず最初にすることは画面一杯を使えるようにすることだと思います。 以下のコードでJupyter Notebook の作業域は最大化されます。
データフレームをJupyter Notebook で操作するにあたり、データセットをそのままのサイズでは操作せず、関連のある列だけを取捨選択、再配置して使うことが多いと思います。
実際のところ、列名を指定して再配置より、列番号を指定して再配置する方が簡単なため、私はもっぱら列番号指定を使っています。今回は、備忘録を兼ねて以下のデータフレーム操作の前段階についてBlogにまとめました。
Jupyter Notebook の表示を画面一杯にする
列名指定と列番号指定のPros and Cons
列番号と列名参照用のデータフレームの作成と表示
サンプルコードとイメージ画像