ビジュアライゼーションツールであるSeabornを使って3グループのそれぞれ2値の比較を棒グラフとデータラベルで可視化を行う方法をまとめました。
ターゲット画像
このページで作成する画像は、以下の図となります。
サンプルデータセットの紹介
データセットを利用しながら、説明をします。
Sample Datasetで紹介した、HRデータ(データセット3)の一部のカラムを利用して具体的に説明したいと思います。
Pythonを使って複数のexcelファイルの同じ場所のセルの値を一つのシートにまとめる入力作業機械化方法を解説します。
自動化の手段としてEXCEL マクロ(vba)で組むのも一つの方法ですが、Openpyxl のモジュールを使えば簡単に実現できる場合があります。複数のexcelファイルの内容を一つのシートにまとめる作業の時短について、Blogにまとめました。旧ページの紛らわしい記述を修正しています。
データ解析において、最も時間のかかる作業は次の2つです。
データセットの各列および各行を理解する。
欠損値(NaN)や入力ミスなどの不要なデータを取り除くなど、「クリーニング」作業を行う。
この2つの作業には異論がないと考えられます。さらに、これらの作業の厄介な点は、両方の作業を繰り返し行う必要があることです。一連のデータクリーニング作業を一律に手順化することができないところが、特に難しいところではないでしょうか。
データセットの準備は、データセットの理解で始まり、クレンジングで終わると言えます。このブログではデータ分析の一丁目一番地である
データセットの理解のためのスクリプト4選をご紹介いたします。
サンプルデータセットの紹介
データセットを利用しながら、説明をした方が分かりやすいと思いますので、今回は
Sample Datasetで紹介した、HRデータ(データセット3)の一部のカラムで
4選スクリプトを紹介いたします。
この記事では、Jupyter NotebookのPandasを使用してデータ分析を行う際に、
sqlite3で提供されるSQL文を使用してデータの読み込みと抽出操作をまとめました。
このブログがPythonプログラムでSQL操作を行う際に役立つことを願っています。