1. データ分析入門 MOC

2. データ収集と理解 MOC

3. Data Wrangling) MOC

4. 統計的分析手法 MOC

4.1. 記述統計 (Descriptive Statistics) MOC (再掲・詳細)

  • [[中心傾向 (Central Tendency)]] (平均、中央値、最頻値)
  • [[ばらつき (Dispersion)]] (分散、標準偏差、変動係数、四分位範囲)
  • [[分布の形状 (Shape of Distribution)]] (歪度、尖度)
  • [[パーセンタイルと四分位数]]
  • [[データの可視化手法]] (ヒストグラム、箱ひげ図、密度プロット)

4.2. 推測統計 (Inferential Statistics) MOC

  • 標本と母集団 (Sample and Population)
  • 確率分布 (Probability Distributions) MOC
    • [[正規分布 (Normal Distribution)]]
    • [[二項分布 (Binomial Distribution)]]
    • [[ポアソン分布 (Poisson Distribution)]]
    • [[t分布 (t-Distribution)]
    • [[カイ二乗分布 (Chi-squared Distribution)]]
  • 推定 (Estimation) MOC
    • [[点推定 (Point Estimation)]]
    • [[区間推定 (Interval Estimation) と信頼区間 (Confidence Interval)]]
  • 仮説検定 (Hypothesis Testing) MOC
    • [[帰無仮説 (Null Hypothesis) と対立仮説 (Alternative Hypothesis)]]
    • [[検定統計量 (Test Statistic)]]
    • [[第一種の過誤 (Type I Error) と第二種の過誤 (Type II Error)]]
    • [[有意水準 (Significance Level - α)]]
    • [[p値 (p-value)]]
    • [[検出力 (Statistical Power)]]
    • 主要な検定手法
      • [[t検定 (t-test)]] (平均値の差の検定)
      • [[カイ二乗検定 (Chi-squared test)]] (独立性の検定、適合度の検定)
      • [[分散分析 (ANOVA - Analysis of Variance)]] (3つ以上の群の平均値の差の検定)
      • [[(オプション) ノンパラメトリック検定]] (マン・ホイットニーのU検定など)

4.3. 相関と回帰分析 (Correlation and Regression Analysis) MOC

5. データ分析の応用手法 MOC

5.1. 時系列分析 (Time Series Analysis) MOC

  • 時系列データの特徴 (トレンド、季節性、周期性、不規則変動)
  • 時系列データの可視化
  • 基本的な時系列モデル
    • [[移動平均 (Moving Average)]]
    • [[指数平滑化 (Exponential Smoothing)]]
  • 自己回帰和分移動平均モデル (ARIMA - Autoregressive Integrated Moving Average) MOC
    • [[自己相関 (ACF) と偏自己相関 (PACF)]]
    • [[定常性 (Stationarity) と差分]]
    • [[季節性ARIMA (SARIMA)]]
  • [[(オプション) 状態空間モデル、スペクトル分析]]

5.2. Bテストと実験計画法 MOC

  • Bテストの概念と目的 (2つのバリアントの効果比較)
  • A/Bテストのプロセス
    • [[仮説設定]]
    • [[サンプルサイズの決定]]
    • [[テスト実施とデータ収集]]
    • [[統計的検定による結果評価]]
  • A/Bテストの注意点 (多重検定問題、セグメント別分析)
  • [[多変量テスト (Multivariate Testing)]]

5.3. クラスタリング分析 (Clustering Analysis) MOC (再掲・分析手法として)

  • クラスタリングの目的 (顧客セグメンテーション、異常検知)
  • 主要なアルゴリズム
    • [[k-means法]] (非階層的)
    • [[階層的クラスタリング]] (デンドログラム)
  • クラスタ数の決定方法 (エルボー法、シルエット分析)
  • クラスタリング結果の解釈とプロファイリング

5.4. 自然言語処理 (NLP) MOC

  • テキストデータの前処理 (トークン化、ストップワード除去、ステミング/レンマ化)
  • 感情分析 (Sentiment Analysis)
  • トピックモデリング (Topic Modeling) (LDA - Latent Dirichlet Allocationなど)
  • 単語の共起分析 (ネットワーク図)
  • Word Cloud

5.5. バスケット分析 (Market Basket Analysis) MOC

  • アソシエーションルールの発見
  • 主要な指標
    • [[支持度 (Support)]]
    • [[信頼度 (Confidence)]]
    • [[リフト値 (Lift)]]
  • Aprioriアルゴリズム

6. データ分析ツール MOC

6.1. プログラミング言語とライブラリ MOC

  • Pythonによるデータ分析 MOC
    • [[Pandas]] (データフレーム操作)
    • [[NumPy]] (数値計算)
    • [[Scikit-learn]] (機械学習)
    • [[Statsmodels]] (統計モデリング)
    • [[Matplotlib / Seaborn / Plotly]] (データ可視化)
    • [[Jupyter Notebook / JupyterLab]] (対話的分析環境)
  • Rによるデータ分析 MOC
    • [[Rの基本構文とデータ構造 (ベクトル, データフレーム)]]
    • [[Tidyverse (dplyr, ggplot2など)]]
    • [[RStudio]] (統合開発環境)

6.2. スプレッドシート (Spreadsheets) MOC

6.3. BIツール (Business Intelligence Tools) MOC

6.4. データベース (Databases) MOC

  • SQLによるデータ集計と分析
    • [[ウィンドウ関数 (Window Functions)]]
    • [[共通テーブル式 (CTE - Common Table Expressions)]]
    • [[集約関数とGROUP BYの応用]]
  • データウェアハウス (DWH) とデータマート (BigQuery, Redshift, Snowflake)

7. 分析結果の伝達とストーリーテリング MOC

  • データストーリーテリングの重要性 (分析結果を意思決定に繋げる)
  • 効果的なレポートとダッシュボードの設計
    • [[聴衆の理解]]
    • [[明確なメッセージの伝達]]
    • [[適切なグラフの選択]]
    • [[情報の階層化]]
    • [[インタラクティブ性の活用]]
  • プレゼンテーションのテクニック
    • [[結論から話す]]
    • [[インサイト (示唆) を強調する]]
    • [[専門用語を避ける]]
  • データの可視化におけるベストプラクティスとアンチパターン
    • [[誤解を招くグラフ (3D円グラフ、切り取られたY軸など)]]
    • [[色の効果的な使用]]

8. データ分析における倫理とガバナンス MOC

9. データ分析のキャリアと学習 MOC

  • データアナリストの役割と責任
  • データサイエンティスト、データエンジニアとの違い
  • ポートフォリオの作成
  • Kaggleなどのコンペティションへの参加
  • 継続的な学習と情報収集