本サイトで使用する3つのデータセットについて説明します。 記事を作成するにあたり、今後も追加することがあります。
データ自体は、当サイトから共有はできません。tipデータ等の出典がKaggleのデータ関してはkaggleからダウンロード可能です。
概要
- 本サイトの記事でその中身を確認及び操作ログを載せるために使用しています。
- 私が今まで経験してきた解析のデータの構成に似せて作成したり、kaggleから見つけてきました
- 各ブログテーマに即したデータセットをkaggleよりダウンロードしています
実践的なスキルを習得するには、5x5 のデータフレームで練習してもビジネスの場ではあまり役に立ちません。 生のデータセットに近い、ある程度のサイズ、欠損値、外れ値、種々のデータ型が混在したデータセットを操作するスキルがとても重要です。
解析したいデータに似せたデータセットを自前で用意できない、もしくは時間が無い方には、 kaggleから適当なデータを見つけてダウンロードして使うといいと思います。
データセット1
オリジナルデータ
項目 | 内容 |
---|---|
出典 | 練習用に自作 |
データセット名 | オリジナルデータ |
サイズ | 読み込んだ最初は、7507行 x 14列 |
中身 | 仮想ビジネスデータ(社員ID, 担当企業名、所属都道府県番号等) |
データの種類 | 数値(int64、float64)、カテゴリカル・データ、文字列、欠損値、外れ値 |
データセット2
tipデータ
項目 | 内容 |
---|---|
出典 | リンク、またはkaggleで restaurant, tip で検索 |
データセット名 | tipデータ |
サイズ | 244行 x 7列 |
中身 | レストラン 料金とチップ |
データの種類 | 数値(int64、float64)、カテゴリカル・データ、文字列 |
データセット3
HRデータ
項目 | 内容 |
---|---|
出典 | リンクまたは、kaggleで HR, attrition で検索 |
データセット名 | HRデータ |
サイズ | 1470行 x 35列 |
中身 | HR データ 退職(attrition flag)、部門、年齢等 |
データの種類 | 数値(int64、float64)、カテゴリカル・データ、文字列 |
データセット4
リオデータ
項目 | 内容 |
---|---|
出典 | リンク、またはkaggleで Rio, Olympic で検索 |
データセット名 | リオデータ |
サイズ | 11538行 x 11列 |
中身 | 各国別メダル数、選手リスト、生年月日 |
データの種類 | 数値(int64)、カテゴリカル・データ、文字列 |