データ分析をするデータセットはそのほとんどは、n行 x m列の2次元のデータです。2次元のデータを扱うためのデータ形式には、Pandas のデータフレーム、Numpyのndarray、Python標準の list が一般的です。それぞれの形式をその用途に合わせて変換します。
このブログではデータハンドリングの基本である、DataFrame, ndarray, list の形式変換について「DataFrame, ndarray, list の使い分けについて実用的に考える」という問いに対して私なりの考えをブログにしました。 参考にしてくださいませ。
都道府県別のワクチン接種率の計算の分母とする「住民基本台帳年齢階級別人口データ」は総務省が公表している総務省の住民基本台帳に基づく人口、人口動態及び世帯数 よりダウンロードできます。エクセルファイルで、6835 行x 26列 のサイズですのでEXCELでの操作でもさほどストレスはかかりませんが、エクセルからPythonへの一環として、フィルタリングや都道府県コードの生成から可視化までをPython で行い、その際のデータフレームと棒グラフの作成手順をまとめましたので、ご紹介いたします。
時系列データの扱い方 リサンプリングについて
毎時や毎日のように一定間隔でデータを集計する時系列データを扱う際、datetimeオブジェクトとして日時データを取り込むと日次から週次などの間隔を変更、再集計(リサンプリングといいます)が簡単にできます。
ディレクトリ配下にある大量なApache httpサーバアクセスログをglobを使って順次読み込み、特定のファイル(語句:String)をカウントするプログラムを作成しました。ダウンロード数をアクセスログからカウントすることを想定しています。作成したプログラムの要点をBlogにまとめましたので、日次ログファイル等大量ファイルの読み込み、特定文字列のカウント等に活用してください。
新製品のテストデータや人事情報など機微な情報を扱う場合、多くの企業ではデータ流出の懸念からインターネット接続のない、いわゆるクローズドネットワークやスタンドアロンPCでPythonを使うことも少なくありません。 WinPythonでオフライン環境のPython開発環境構築されている方は少なく無いと思います。このBlogではWinPythonでの定番モジュールの追加のTips をまとめました。