Digital Papyrus

学習メモ。記録。アーカイブ。雑記。

【統計検定:DS基礎】データサイエンス基礎の学習メモ②

【忘却と学習の旅:統計編】~日々の記録と現在地、これからのこと~

年明け頃から寒さに耐えきれず、暖房をつける頻度が急上昇しております。

みなさんこんにちは、しょーすけです。

今回も前回に続き、統計関連の学習メモです。

ここはよく分からんとか、正しく理解できたと...いったような、限りなく独り言に近い勉強メモとしての文章を載せていきます。

【使用している書籍】

今回はPART3の範囲のメモです...φ(._. )

--------------------------------------------------------------------------------------------------
PART 1 データサイエンスの基本

第1章 データの構造化とデータマネジメント
 1 データアナリティクスと問題解決
 2 構造化データと非構造化データ
 3 データマネジメント

PART 2 質的データのアナリティクス

第2章 重点志向とパレート分析
 1 パレート分析の手順とパレート表
 2 層別パレート分析
 3 問題の解答と演習問題

第3章 データ項目間の関連性とクロス集計分析
 1 クロス集計表(同時分布・周辺分布・条件付き分布)
 2 2 つのデータ項目の間の関連性の強さを測る:連関係数とχ2 検定
 3 問題の解答と演習問題

★PART 3 量的データのアナリティクス

第4章 分析構造の把握と基本統計量
 1 分布の把握
 2 基本統計量
 3 グラフと統計量
 4 代表的な変数変換
 5 問題の解答と演習問題

第5章 相関・予測と回帰分析
 1 相関分析
 2 回帰分析
 3 問題の解答と演習問題

PART 4 確率・確率分布・推測のアナリティクス

第6章 確率に基づく判断
 1 二項分布を用いた分析
 2 正規分布を用いた分析
 3 いろいろな確率分布を用いた分析
 4 クロス集計表と条件付き確率/ベイズの定理を用いた分析
 5 問題の解答と演習問題

第7章 統計的な推測
 1 推定に伴う誤差
 2 区間推定
 3 仮説検定の考え方
 4 仮説検定
 5 問題の解答と演習問題

PART 5 時系列・テキスト・乱数データのアナリティクス

第8章 時系列データの分析
 1 指数・増減率・成長率
 2 問題の解答と演習問題
 3 移動平均・季節調整・寄与度分解
 4 問題の解答と演習問題

第9章 テキストデータの分析
 1 文書データの処理
 2 文書データの統計処理
 3 問題の解答と演習問題

第10章 シミュレーションと乱数
 1 シミュレーション
 2 代表的なシミュレーション
 3 問題の解答と演習問題

PART 6 実践模擬問題

第11章 模擬問題と解答
--------------------------------------------------------------------------------------------------

いよいよ(?)本格的な統計っぽい範囲に入るので、特に理解しておきたいところについては多めにメモっていこうと思います。

★PART 3 量的データのアナリティクス

--------------------------------------------------------------------------------------------------

第4章 分析構造の把握と基本統計量
 1 分布の把握
 2 基本統計量
 3 グラフと統計量
 4 代表的な変数変換
 5 問題の解答と演習問題

メモ
  ・四分位数、範囲、箱ひげ図の理解が若干怪しい
  ・変動係数CV(Coefficient of Variation・相対標準偏差
   変動係数 = 標準偏差 / 平均値 × 100(%)
  ・管理図(あんまり使わなさそうだけど)は念のため復習する
  ・標準得点(*偏差値は大丈夫だと思う)の算出方法は忘れずに

--------------------------------------------------------------------------------------------------

第5章 相関・予測と回帰分析
 1 相関分析
 2 回帰分析
 3 問題の解答と演習問題

メモ
  ・相関分析:基本的なExcelの関数の使い方はOK
   *むしろその前段の疑似相関等を考慮する思考力の方が重要
  ・でも散布図はやっておかないと...( ..)φ
  ・共分散が若干怪しいので復習
  ・回帰分析は数学の一次関数の考え方が基本形(傾きと切片)
  ・重回帰分析は深く問われないので、一旦後回しかな...
  ・回帰分析における各項目名
   重相関R:説明変数群と目的変数との相関係数の値
   重決定R2:決定係数
   補正R2:自由度調整済み決定係数
   自由度:「観測値」の数 - 観測値間に必要な関係の数(パラメータ推定値の数)
   標準誤差:目的変数の標準誤差の推定値
   観測数:データの数
   分散分析表:目的変数を、説明変数を要因として分散分析した結果

正直、このテキストの第5章が自分にとっては最重要部分だと感じてます...!

うーん...回帰分析の基本は理解できていると思うのですが、これをいざExcelでカチャカチャやるとなった時に混乱しそうですorz
Google Spreadsheet上で回帰分析するとなると、XLMiner Analysis ToolPakという拡張機能を使って実行しているので、操作性の違いが一番不安要素です。

こういう表計算関連の作業が含まれるテストは、MicrosoftGoogleのどっちか選べるようにしておいてほしいものです...( ..)φ

--------------------------------------------------------------------------------------------------

学習メモとは全然関係ないのですが、最近読み始めた本を載せておきます。

amzn.asia

本の内容はさることながら、本自体のサイズ感とデザインも非常に良くてですね...買って大正解の1冊だと思ってます。
読み物なんですが、学術的な側面も入りつつ、全体的には講義ノートに近いような仕立てになってるんですかね......( ..)φフムフム
あんまり統計関連に詳しくない初学者の自分でも、割と読み進めやすい作りになっている気がしております。

他にも2冊統計関連の書籍(著:三中信宏)を冒頭の章で紹介していたので、今のやつを読み終えたら読んでみるつもりです。

学習メモの続きはまた近日中に。