Digital Papyrus

学習メモ。記録。アーカイブ。雑記。

【統計検定:DS基礎】データサイエンス基礎の学習メモ①

【忘却と学習の旅:統計編】~日々の記録と現在地、これからのこと~

気づいたらラピスラズリ湖畔イベントが始まりました...。

みなさんこんにちは、しょーすけです。

5記事目にしてこのブログの本題といいますか、ブログを再開した目的に最も沿った内容である「学んだことについてのメモ」を載せていきます。

本記事のトップ画像の中に、格好つけて使っている「忘却と学習の旅~日々の記録と現在地、これからのこと~」ですが、本人はなかなかに気に入っています。
学んだことについての記事は、しばらくこのお題目を使用する予定です。

 

今回のブログですが、統計関連の学習メモです。
(※今現在、統計検定の取得に向けて学習中のため)

ここはよく分からんとか、正しく理解できたと...いったような、限りなく独り言に近い勉強メモとしての文章を載せますので、悪しからず。

【使用している書籍】

今回はPART1~2の範囲のメモです...φ(._. )
--------------------------------------------------------------------------------------------------
★PART 1 データサイエンスの基本

第1章 データの構造化とデータマネジメント
 1 データアナリティクスと問題解決
 2 構造化データと非構造化データ
 3 データマネジメント

★PART 2 質的データのアナリティクス

第2章 重点志向とパレート分析
 1 パレート分析の手順とパレート表
 2 層別パレート分析
 3 問題の解答と演習問題

第3章 データ項目間の関連性とクロス集計分析
 1 クロス集計表(同時分布・周辺分布・条件付き分布)
 2 2 つのデータ項目の間の関連性の強さを測る:連関係数とχ2 検定
 3 問題の解答と演習問題

PART 3 量的データのアナリティクス

第4章 分析構造の把握と基本統計量
 1 分布の把握
 2 基本統計量
 3 グラフと統計量
 4 代表的な変数変換
 5 問題の解答と演習問題

第5章 相関・予測と回帰分析
 1 相関分析
 2 回帰分析
 3 問題の解答と演習問題

PART 4 確率・確率分布・推測のアナリティクス

第6章 確率に基づく判断
 1 二項分布を用いた分析
 2 正規分布を用いた分析
 3 いろいろな確率分布を用いた分析
 4 クロス集計表と条件付き確率/ベイズの定理を用いた分析
 5 問題の解答と演習問題

第7章 統計的な推測
 1 推定に伴う誤差
 2 区間推定
 3 仮説検定の考え方
 4 仮説検定
 5 問題の解答と演習問題

PART 5 時系列・テキスト・乱数データのアナリティクス

第8章 時系列データの分析
 1 指数・増減率・成長率
 2 問題の解答と演習問題
 3 移動平均・季節調整・寄与度分解
 4 問題の解答と演習問題

第9章 テキストデータの分析
 1 文書データの処理
 2 文書データの統計処理
 3 問題の解答と演習問題

第10章 シミュレーションと乱数
 1 シミュレーション
 2 代表的なシミュレーション
 3 問題の解答と演習問題

PART 6 実践模擬問題

第11章 模擬問題と解答
--------------------------------------------------------------------------------------------------

うーむ、なかなかに充実した量である...(と言いつつ、既にテキストは1周完了した状態で、現在は2周目なのです。)

2月末での取得を狙っていますが、最大の懸念事項としては、日常業務ではgoogleのspreadsheetを使用しているため、Excel形式での操作をしなくてはならないという点です。

PART 1 データサイエンスの基礎
--------------------------------------------------------------------------------------------------

第1章 データの構造化とデータマネジメント
 1 データアナリティクスと問題解決
 2 構造化データと非構造化データ
 3 データマネジメント

メモ

第1章は基本的なデータの定義の確認、全体像の把握で終了。
特に大きな問題もなく理解できた。

--------------------------------------------------------------------------------------------------

 

PART 2 質的データのアナリティクス
--------------------------------------------------------------------------------------------------
第2章 重点志向とパレート分析
 1 パレート分析の手順とパレート表
 2 層別パレート分析
 3 問題の解答と演習問題

メモ

ここから問題を解き進めるにあたってExcelを使う必要が出てくるのだけど、Excelが厄介。

そもそも、今現在ExcelではなくGoogle Spreadsheetを使っているので、微妙に操作感が異なる。
わざわざこの学習のためにExcelの有料版を導入するのもなんか違うなぁ...と思いつつ、Microsoftの無料で使えるオンラインアプリ版で対応。

ただ、問題演習にあたっての操作については難解なものが無く、アプリ版でも充分対応可能でした。
問題自体もまだ理解しやすいレベルだったため、問題無し。


第3章 データ項目間の関連性とクロス集計分析
 1 クロス集計表(同時分布・周辺分布・条件付き分布)
 2 2 つのデータ項目の間の関連性の強さを測る:連関係数とχ2 検定
 3 問題の解答と演習問題

メモ

2 つのデータ項目の間の関連性の強さを測る:連関係数とχ2 検定 の部分
>>ここの部分が一番重要かな...考え方と、実際に関数を自分で使えるようにするまでが少し大変。
検定については理解していたが、実際に自分で使ってみるとなるとなかなか上手くいかない時もあったので、各検定に関する知識はまたまとめておく必要がありそうです。

--------------------------------------------------------------------------------------------------

続きは近日中に。