カテゴリカルデータの個数、構成比率、トータル行を集計、整形する
カテゴリカルデータの個数、構成比率、トータル行を集計、整形する方法をまとめました。 データフレームの特定の列(例:部門)ごとに、❶件数(何件あるか)、❷構成比(全体のうち何%か)を出して、 後で加工しやすい「表(データフレーム)」の形にまと、ついでに合計(Total)行も付けるためのスクリプトをまとめました。
カテゴリカルデータの個数、構成比率、トータル行を集計、整形する方法をまとめました。 データフレームの特定の列(例:部門)ごとに、❶件数(何件あるか)、❷構成比(全体のうち何%か)を出して、 後で加工しやすい「表(データフレーム)」の形にまと、ついでに合計(Total)行も付けるためのスクリプトをまとめました。
日付の新しい方を残す重複排除やり方をまとめました。重複排除するルールとして、❶新しいものを残す。❷古い方を残す。といった一工夫が必要な場合があります。そのステップをまとめました。
このブログではデータハンドリングの基本である、DataFrame, ndarray, list の形式変換について「DataFrame, ndarray, list の使い分けについて実用的に考える」という問いに対してブログにしました。
seabornはmatplotlibをベースにしたデータビジュアライゼーションライブラリです。countplot はカテゴリカルデータを集計から度数分布図までを一気に行なってくれる大変便利なツールです。 barplot で棒グラフを作成し、各々のbarの値をannotationしたいと思います。Excelの代わ...
新製品のテストデータや人事情報など機微な情報を扱う場合、多くの企業ではデータ流出の懸念からインターネット接続のない、いわゆるクローズドネットワークやスタンドアロンPCでPythonを使うことも少なくありません。 WinPythonでオフライン環境のPython開発環境構築されている方は少なく無いと思います。