フォーム入力の方法の一つである「チェックボックス入力形式」は、通常、ユーザが複数の回答を選択できるように用意されています。 その結果は多重回答といいます。多重回答の集計は、ラジオボタンで択一選択する場合と異なり、ちょっとしたコツが必要です。今回は、Google フォームに入力された多重回答をサンプルにしてその集計方法についてブログにまとめました。
df['列名'].value_counts()はデータセットの理解のはじめの一歩として必ず使うcodeの一つです。 今回は、この結果を報告用にビジュアル化してそのまま、パワポに画像貼り付けするためのHint&Tipsをブログにしてみました。
Pandas を使って各種データセットの結合の方法を備忘録的にまとめたいと思います。とりあえず、まとめたところから公開したいと思います。今後、追加、編集していくブログになります。
特徴量選択(feature selection)=どれを説明変数として使うかは、データ分析では重要です。実際のところドメイン知識が大きな力を発揮するため、データサイエンスに精通しないがドメイン知識をもつ専門家にもっと、モデルを作成してもらうためIBM のSPSS® Modeler等の統計ソフトは大手企業、官公庁向の研究者やテータ分析担当者向けに導入が進んでいます。
Docker 環境があると、ちょっとPythDon の勉強用の試しコード作成等や本来ならば個人のPCでやるべきようなことを仕事用などのPCを使う場合等、PCを汚したくない時にDocker環境の中にJupyter Notebook稼働環境を作ってPC環境から独立して使うことができます。