モデルの評価基準は、予測精度(accuracy)に偏りがちですが、モデルによって事象の発生を解釈(interpret)し、事象をコントロールする可能性(interpretability)があります。ランダムフォーレストなど決定木系のアルゴリズムでは係数(feature imporatances)に変数の選択肢の数(cardinality)でバイアスされ解釈には使えないと言われています。
今回は、個々の説明変数が退職率へどの程度の影響を及ぼすか。すなわち、モデルの解釈(interpretability)としての「相関係数(coefficient)」の扱いについて説明します。
満足度や業績評価、月収等のすでに数値化された順序尺度の回帰分析に性別等のカテゴリカルデータを説明変数に加えて的中率(hit ratio)の影響を調べます。モデルに修正を加えて的中率(hit ratio)をアップする手順を解説します。
「Label_Encoderで目的変数を作成する」 で作成した目的変数に対して二項ロジスティック回帰分析で機械学習をします。 テストデータの的中率を向上する手順を紹介します。
value_counts()の結果を円グラフにする方法を説明します。 分析にはほとんど使わない円グラフですが、プレゼン資料では大活躍です。