PDF操作の定番であるPyPDF2のモジュールを利用してフォルダ配下のPDFを連結し、pdfrwでページ番号を付与する手順をまとめました。
pdf の連結には関数を定義することで、汎用性のあるコードです。ひとつにまとめたPDFにページ番号を付与し使いやすくしています。
PythonでのPDF操作の参考になれば幸いです。
データセットに格納されたある列のデータを抜き出す作業で、ひとつずつではなく複数の塊にまとめることとなり、
しかもセミコロン ";" で連結したいというリクエストに対応しましたので、Blogにまとめました。
DataFrameを縦方向でも横方向でも結合できるのがconcat関数の特徴を持つpd.concatについてまとました。
データフレームのデータの追加(縦結合)や属性の追加(横結合)で利用シーンの多い、pd.concatの利用方法についてまとめました。
DataFrameまたは名前付きSeriesオブジェクトをデータベーススタイルの結合で結合する pd.mergeについてまとました。
結合(pd.merge)は列またはインデックスを共通の軸にして行われます。列同士で結合する場合、DataFrameのインデックスは無視されます。一方、インデックス同士で結合するか、インデックスを列と結合する場合、インデックスは引き継がれます。ちょっとややこしい pd.merge のルールをできるだけわかりやすくまとめてみました。
Pandas のstr.contaisを利用して指定の値を含まない行の抽出方法をまとめました。
データフレームの中身をクリーニング等で抽出作業は必須スキルです。
今回は、
str.contains("除きたい文字列") と
否定演算子~ を使って~df
として指定の文字列を含まない行の抽出方法をまとめました。