作画したグラフにより報告するにあたり、ピーク売上等の注目点を付け加えて、グラフの説明力を増したいことはよくあります。パワーポイントなどで
事後に追加してもいいかもしれませんが、matplotlibの機能で注釈(annotation)を追加してみました。
トレーニングデータセットをバリデーション用に細分化してそれぞれでaccuracyのバラツキを見るクロスバリデーション(CV: cross-validation)の方法を応用して、トレーニングデータセットを細分化します。パラメータセットで取りうるパラメータを定義し、すべての組み合わせ計算し、その中で最もいいパラメータセットを決定します。このような総当りで計算して最適なパラメータセットを決定する方法をGridSerachCVといいます。
Pandas でデータ解析をしていて、結果を可視化するための作図にはEXCELに頼ることはしばしばあります。しかし、同じような作図を何度も行う場合、
できればJupyter Notebookの中で完結したいですね。
簡単な図であれば、このBlogでも紹介したようにmatplotlibの基本機能で大丈夫ですが、EXCELでは、ごく一般的な棒グラフと折れ線グラフ
が重なりあった二軸のグラフをmatplotlibで描画するのは、やはり最初は、ネットで調べる時間と使い方の理解が必要です。
隣の部門(課)で共有して集計しているEXCELデータをオリジナルデータとして機械学習用のデータセットにする作業で
行ったデータクリーニングの実際をメモします。 一日半かけてクリーニング作業で山場は越えたところです。
来週の確認のミーティングまので間にしたためました。
エンドユーザ部門で共有するEXCELデータのクオリティはKaggle のデータセットとは大違いに、エラー入力、重複入力の
デパート状態でした。
トレーニングデータでは完璧のスコアで学習をしたモデルで正解データで検証すると良くないスコアとなることを過学習(overfitting)と言います。通常トレーニングデータセットを更にバリデーション用に細分化してそれぞれでaccuracyのバラツキを見ることをクロスバリデーション(CV: cross-validation)といいます。簡単に計算できます。