1. データ分析入門 MOC
- データ分析とは
- データ分析と関連分野
[[データサイエンスとの関係]](データ分析はデータサイエンスのコアコンポーネント)[[機械学習との関係]](機械学習はデータ分析の高度な手法の一つ)[[統計学との関係]](統計学はデータ分析の理論的基盤)[[ビジネスインテリジェンス (BI) との関係]](BIは主に過去と現在のデータの可視化とレポートに焦点を当てる)
- データ分析の種類
- 記述的分析 (Descriptive Analytics) (何が起きたか?)
- 診断的分析 (Diagnostic Analytics) (なぜ起きたか?)
- 予測的分析 (Predictive Analytics) (何が起きるか?)
- 処方的分析 (Prescriptive Analytics) (何をすべきか?)
- データ分析のプロセス (CRISP-DM, PPDACなど)
[[1. ビジネスの理解 (Business Understanding)]][[2. データの理解 (Data Understanding)]][[3. データの準備 (Data Preparation)]][[4. モデリング (Modeling)]][[5. 評価 (Evaluation)]][[6. 展開 (Deployment)]]
- データ分析に求められるスキル (技術スキル、統計知識、ビジネス知識、コミュニケーション能力)
2. データ収集と理解 MOC
- データソースの種類 MOC
[[構造化データ (Structured Data)]](RDB, CSV, Excel)[[半構造化データ (Semi-structured Data)]](JSON, XML)[[非構造化データ (Unstructured Data)]](テキスト, 画像, 音声)[[一次データと二次データ]][[内部データと外部データ]]
- データ収集の方法 MOC
[[データベースからの抽出 (SQL)]][[APIを利用したデータ取得]][[Webスクレイピング]][[アンケート調査と実験]][[ログファイルの収集]]
- 探索的データ分析 (EDA - Exploratory Data Analysis) MOC
- EDAの目的 (データへの最初の理解、仮説生成、異常の発見)
- データの要約と記述統計
[[代表値 (平均値, 中央値, 最頻値)]][[散布度 (分散, 標準偏差, 範囲, 四分位数)]][[度数分布表とヒストグラム]]
- データの可視化 (Data Visualization)
[[棒グラフ、円グラフ]](カテゴリカルデータ)[[折れ線グラフ]](時系列データ)[[散布図]](2変数の関係)[[箱ひげ図]](分布の要約)[[ヒートマップ]](相関行列など)[[地理空間データマッピング]]
- 相関分析
[[相関係数]][[散布図行列]][[相関と因果の違い]]
3. Data Wrangling) MOC
- データ前処理の重要性 (「データ分析の8割は前処理」)
- データクリーニング (Data Cleaning) MOC
- 欠損値処理 (再掲・分析文脈)
[[欠損値の特定 (isnull,isna)]][[リストワイズ削除、ペアワイズ削除]][[平均値/中央値/最頻値補完]][[回帰補完、k-NN補完]]
- 外れ値処理 (再掲・分析文脈)
[[外れ値の検出 (Zスコア, IQR法)]][[外れ値の除去、クリッピング、変換]]
- 重複データ処理
- データ型とフォーマットの統一 (文字列、日付、数値)
- 欠損値処理 (再掲・分析文脈)
- データ変換 (Data Transformation) MOC
- 特徴量スケーリング (標準化, 正規化) - 機械学習モデル向け
- 対数変換、平方根変換など (分布の正規化)
- 離散化 (Discretization) (連続値からカテゴリカル値へ)
- カテゴリ変数のエンコーディング (ラベルエンコーディング, ワンホットエンコーディング)
- データ統合 (Data Integration) MOC
[[テーブルの結合 (JOIN)]][[テーブルの連結 (UNION)]]
- データ削減 (Data Reduction) MOC
[[次元削減 (PCAなど)]][[サンプリング (Sampling)]](ランダムサンプリング, 層化サンプリング)
4. 統計的分析手法 MOC
4.1. 記述統計 (Descriptive Statistics) MOC (再掲・詳細)
[[中心傾向 (Central Tendency)]](平均、中央値、最頻値)[[ばらつき (Dispersion)]](分散、標準偏差、変動係数、四分位範囲)[[分布の形状 (Shape of Distribution)]](歪度、尖度)[[パーセンタイルと四分位数]][[データの可視化手法]](ヒストグラム、箱ひげ図、密度プロット)
4.2. 推測統計 (Inferential Statistics) MOC
- 標本と母集団 (Sample and Population)
- 確率分布 (Probability Distributions) MOC
[[正規分布 (Normal Distribution)]][[二項分布 (Binomial Distribution)]][[ポアソン分布 (Poisson Distribution)]][[t分布 (t-Distribution)][[カイ二乗分布 (Chi-squared Distribution)]]
- 推定 (Estimation) MOC
[[点推定 (Point Estimation)]][[区間推定 (Interval Estimation) と信頼区間 (Confidence Interval)]]
- 仮説検定 (Hypothesis Testing) MOC
[[帰無仮説 (Null Hypothesis) と対立仮説 (Alternative Hypothesis)]][[検定統計量 (Test Statistic)]][[第一種の過誤 (Type I Error) と第二種の過誤 (Type II Error)]][[有意水準 (Significance Level - α)]][[p値 (p-value)]][[検出力 (Statistical Power)]]- 主要な検定手法
[[t検定 (t-test)]](平均値の差の検定)[[カイ二乗検定 (Chi-squared test)]](独立性の検定、適合度の検定)[[分散分析 (ANOVA - Analysis of Variance)]](3つ以上の群の平均値の差の検定)[[(オプション) ノンパラメトリック検定]](マン・ホイットニーのU検定など)
4.3. 相関と回帰分析 (Correlation and Regression Analysis) MOC
- 相関分析 (Correlation Analysis)
[[ピアソンの積率相関係数]][[スピアマンの順位相関係数]][[相関と因果関係の誤謬]]
- 回帰分析 (Regression Analysis)
- 単回帰分析 (Simple Linear Regression)
[[回帰直線、回帰係数、切片]][[最小二乗法 (Method of Least Squares)]]
- 重回帰分析 (Multiple Linear Regression)
[[多重共線性 (Multicollinearity) の問題]][[変数選択法 (ステップワイズ法など)]]
[[ロジスティック回帰分析 (Logistic Regression)]](分類問題への応用)[[モデルの評価 (決定係数, p値, 残差分析)]]
- 単回帰分析 (Simple Linear Regression)
5. データ分析の応用手法 MOC
5.1. 時系列分析 (Time Series Analysis) MOC
- 時系列データの特徴 (トレンド、季節性、周期性、不規則変動)
- 時系列データの可視化
- 基本的な時系列モデル
[[移動平均 (Moving Average)]][[指数平滑化 (Exponential Smoothing)]]
- 自己回帰和分移動平均モデル (ARIMA - Autoregressive Integrated Moving Average) MOC
[[自己相関 (ACF) と偏自己相関 (PACF)]][[定常性 (Stationarity) と差分]][[季節性ARIMA (SARIMA)]]
[[(オプション) 状態空間モデル、スペクトル分析]]
5.2. Bテストと実験計画法 MOC
- Bテストの概念と目的 (2つのバリアントの効果比較)
- A/Bテストのプロセス
[[仮説設定]][[サンプルサイズの決定]][[テスト実施とデータ収集]][[統計的検定による結果評価]]
- A/Bテストの注意点 (多重検定問題、セグメント別分析)
[[多変量テスト (Multivariate Testing)]]
5.3. クラスタリング分析 (Clustering Analysis) MOC (再掲・分析手法として)
- クラスタリングの目的 (顧客セグメンテーション、異常検知)
- 主要なアルゴリズム
[[k-means法]](非階層的)[[階層的クラスタリング]](デンドログラム)
- クラスタ数の決定方法 (エルボー法、シルエット分析)
- クラスタリング結果の解釈とプロファイリング
5.4. 自然言語処理 (NLP) MOC
- テキストデータの前処理 (トークン化、ストップワード除去、ステミング/レンマ化)
- 感情分析 (Sentiment Analysis)
- トピックモデリング (Topic Modeling) (LDA - Latent Dirichlet Allocationなど)
- 単語の共起分析 (ネットワーク図)
- Word Cloud
5.5. バスケット分析 (Market Basket Analysis) MOC
- アソシエーションルールの発見
- 主要な指標
[[支持度 (Support)]][[信頼度 (Confidence)]][[リフト値 (Lift)]]
- Aprioriアルゴリズム
6. データ分析ツール MOC
6.1. プログラミング言語とライブラリ MOC
- Pythonによるデータ分析 MOC
[[Pandas]](データフレーム操作)[[NumPy]](数値計算)[[Scikit-learn]](機械学習)[[Statsmodels]](統計モデリング)[[Matplotlib / Seaborn / Plotly]](データ可視化)[[Jupyter Notebook / JupyterLab]](対話的分析環境)
- Rによるデータ分析 MOC
[[Rの基本構文とデータ構造 (ベクトル, データフレーム)]][[Tidyverse (dplyr, ggplot2など)]][[RStudio]](統合開発環境)
6.2. スプレッドシート (Spreadsheets) MOC
- Google Sheets
[[基本的な関数と数式]][[ピボットテーブル]][[グラフ作成機能]][[ソルバー、分析ツール]]- スプレッドシートの限界 (データ量、再現性)
6.3. BIツール (Business Intelligence Tools) MOC
- Tableau MOC
- Power BI MOC
- Looker (旧Google Data Studio) MOC
- BIツールの特徴 (ドラッグ&ドロップ操作、インタラクティブなダッシュボード作成、データソース接続)
6.4. データベース (Databases) MOC
- SQLによるデータ集計と分析
[[ウィンドウ関数 (Window Functions)]][[共通テーブル式 (CTE - Common Table Expressions)]][[集約関数とGROUP BYの応用]]
- データウェアハウス (DWH) とデータマート (BigQuery, Redshift, Snowflake)
7. 分析結果の伝達とストーリーテリング MOC
- データストーリーテリングの重要性 (分析結果を意思決定に繋げる)
- 効果的なレポートとダッシュボードの設計
[[聴衆の理解]][[明確なメッセージの伝達]][[適切なグラフの選択]][[情報の階層化]][[インタラクティブ性の活用]]
- プレゼンテーションのテクニック
[[結論から話す]][[インサイト (示唆) を強調する]][[専門用語を避ける]]
- データの可視化におけるベストプラクティスとアンチパターン
[[誤解を招くグラフ (3D円グラフ、切り取られたY軸など)]][[色の効果的な使用]]
8. データ分析における倫理とガバナンス MOC
- データプライバシーと個人情報保護
[[GDPR, CCPAなどの法規制]][[匿名化と仮名化]]
- 分析におけるバイアス
[[確証バイアス (Confirmation Bias)]][[生存者バイアス (Survivorship Bias)]][[サンプリングバイアス (Sampling Bias)]]
- 結果の誤解釈と誤用
- データガバナンスとデータ品質管理
- 再現可能な分析 (Reproducible Research) (コードとデータの共有)
9. データ分析のキャリアと学習 MOC
- データアナリストの役割と責任
- データサイエンティスト、データエンジニアとの違い
- ポートフォリオの作成
- Kaggleなどのコンペティションへの参加
- 継続的な学習と情報収集