1. 確率論と統計学の導入 MOC
- 確率論とは何か、統計学とは何か
- コンピュータサイエンスにおける確率統計の重要性
- 記述統計学と推測統計学の概要
2. 確率論 (Probability Theory) MOC
2.1. 確率の基本概念 MOC
- 試行 (Trial) と事象 (Event)
- 事象の演算
- 確率の定義
- 確率の基本性質 (公理からの導出)
[[P(∅) = 0]][[P(Aᶜ) = 1 - P(A)]][[A ⊆ B ⇒ P(A) ≤ P(B)]][[0 ≤ P(A) ≤ 1]]- 加法定理 (Addition Rule)
P(A ∪ B) = P(A) + P(B) - P(A ∩ B) - 3つ以上の事象の加法定理 (包除原理の応用)
- 組合せ論と確率計算 (詳細は離散数学 MOC > 組合せ論 MOCも参照)
2.2. 条件付き確率と事象の独立性 MOC
- 条件付き確率 (Conditional Probability)
- [[条件付き確率の定義
P(B|A) = P(A ∩ B) / P(A)]] - 条件付き確率の直感的理解と応用例
- [[条件付き確率の定義
- 乗法定理 (Multiplication Rule)
[[P(A ∩ B) = P(A) * P(B|A) = P(B) * P(A|B)]]- 3つ以上の事象の乗法定理
- 事象の独立性 (Independence of Events)
- [[2つの事象の独立性の定義
P(A ∩ B) = P(A) * P(B)]] - [[独立性と条件付き確率の関係
P(B|A) = P(B)(P(A)>0 の場合)]] - 3つ以上の事象の独立性 (対独立と相互独立)
- 独立試行 (Independent Trials)
- [[2つの事象の独立性の定義
- 全確率の法則 (Law of Total Probability)
[[P(B) = Σ P(B|Ai) * P(Ai)(Aiが標本空間の分割の場合)]]
- ベイズの定理 (Bayes’ Theorem) MOC
- ベイズの定理の導出と公式
P(Ai|B) = [P(B|Ai) * P(Ai)] / Σ P(B|Aj) * P(Aj) - 事前確率 (Prior Probability) と事後確率 (Posterior Probability)
- 尤度 (Likelihood)
- ベイズの定理の応用例 (迷惑メールフィルタ、医療診断など)
- ベイズの定理の導出と公式
2.3. 確率変数 (Random Variables) MOC
- 確率変数の定義
- 離散確率変数の確率分布 (Probability Distribution of Discrete Random Variables) MOC
- 確率関数
p(x) = P(X=x) - 累積分布関数 (CDF - Cumulative Distribution Function)
F(x) = P(X ≤ x)(離散版)
- 確率関数
- 連続確率変数の確率分布 (Probability Distribution of Continuous Random Variables) MOC
- 確率密度関数 (PDF - Probability Density Function)
f(x)- PDFの性質 (f(x) ≥ 0, ∫ f(x)dx = 1 over R)
[[P(a ≤ X ≤ b) = ∫ f(x)dx from a to b]][[P(X=x) = 0(連続変数の場合)]]
- 累積分布関数 (CDF - Cumulative Distribution Function)
F(x) = P(X ≤ x) = ∫ f(t)dt from -∞ to x(連続版)[[f(x) = dF(x)/dx]]
- 確率密度関数 (PDF - Probability Density Function)
- Mean) MOC
- [[離散確率変数の期待値
E[X] = Σ x * p(x)]] - [[連続確率変数の期待値
E[X] = ∫ x * f(x)dx]] - 期待値の性質
[[E[c] = c(cは定数)]][[E[cX] = cE[X]]][[E[X + Y] = E[X] + E[Y](線形性)]][[E[g(X)](確率変数の関数の期待値)]]
- 期待値の解釈 (平均値、重心)
- [[離散確率変数の期待値
- 分散 (Variance) と標準偏差 (Standard Deviation) MOC
- 分散の定義
Var(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2 - 分散の性質
[[Var(c) = 0]][[Var(cX) = c^2 Var(X)]][[Var(X + c) = Var(X)]][[Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y)]] (独立ならVar(X) + Var(Y))
- [[標準偏差の定義
SD(X) = σ = sqrt(Var(X))]] - 分散と標準偏差の解釈 (ばらつきの度合い)
- (オプション) モーメント (Moment) と積率母関数 (Moment Generating Function - MGF)
- (オプション) 特性関数 (Characteristic Function)
- 分散の定義
- チェビシェフの不等式 (Chebyshev’s Inequality) (平均と分散のみを用いた確率評価)
- 確率変数の変換 (Transformation of Random Variables) (1変数、2変数)
2.4. 代表的な離散確率分布 MOC
- ベルヌーイ分布 (Bernoulli Distribution)
Ber(p) - 二項分布 (Binomial Distribution)
B(n, p) - 幾何分布 (Geometric Distribution)
Geo(p) - パスカル分布
- ポアソン分布 (Poisson Distribution)
Po(λ) - 超幾何分布 (Hypergeometric Distribution)
- 離散一様分布 (Discrete Uniform Distribution)
2.5. 代表的な連続確率分布 MOC
- 連続一様分布 (Continuous Uniform Distribution)
U(a, b) - Gaussian Distribution)
N(μ, σ^2)- PDF, 釣鐘型の形状
- 期待値 (μ) と分散 (σ^2)
- 標準正規分布 (Standard Normal Distribution)
N(0, 1)- [[標準化 (Standardization)
Z = (X - μ) / σ]] - 標準正規分布表 (Z表) の使い方
- [[標準化 (Standardization)
- 正規分布の再生性 (和も正規分布)
- 正規分布の応用 (多くの自然現象、中心極限定理)
- 指数分布 (Exponential Distribution)
Exp(λ) - ガンマ分布 (Gamma Distribution) (指数分布、カイ二乗分布を特殊ケースとして含む)
- カイ二乗分布 (Chi-squared Distribution)
χ^2(k) - t分布 (Student’s t-Distribution)
t(k) - F分布 (F-Distribution)
F(k1, k2) - (オプション) ベータ分布 (Beta Distribution)
- (オプション) ワイブル分布 (Weibull Distribution) (信頼性工学)
- (オプション) 対数正規分布 (Log-normal Distribution)
2.6. 多次元確率変数と関連概念 MOC
- 同時確率分布 (Joint Probability Distribution)
- [[離散の場合の同時確率質量関数
p(x,y)]] - [[連続の場合の同時確率密度関数
f(x,y)]]
- [[離散の場合の同時確率質量関数
- 周辺確率分布 (Marginal Probability Distribution)
- 条件付き確率分布 (Conditional Probability Distribution)
[[p(y|x) = p(x,y) / p_X(x)]][[f(y|x) = f(x,y) / f_X(x)]]
- 確率変数の独立性 (Independence of Random Variables)
[[p(x,y) = p_X(x) * p_Y(y)またはf(x,y) = f_X(x) * f_Y(y)]][[E[XY] = E[X]E[Y](独立な場合)]]
- 共分散 (Covariance)
[[Cov(X,Y) = E[(X-E[X])(Y-E[Y])] = E[XY] - E[X]E[Y]]]- 共分散の性質
- 独立ならば共分散は0 (逆は必ずしも真ならず)
- 相関係数 (Correlation Coefficient)
[[ρ(X,Y) = Cov(X,Y) / (SD(X)SD(Y))]]- 相関係数の性質 (-1 ≤ ρ ≤ 1)
- 相関の強さと方向の解釈
- 無相関と独立の違い
- 多変量正規分布 (Multivariate Normal Distribution) (概要)
- (オプション) 確率変数の和の分布 (畳み込み)
2.7. 極限定理 (Limit Theorems) MOC
- 大数の法則 (Law of Large Numbers - LLN)
- 中心極限定理 (Central Limit Theorem - CLT)
- (オプション) ド・モアブル–ラプラスの定理 (De Moivre–Laplace Theorem) (二項分布の正規近似)
3. 記述統計学 (Descriptive Statistics) MOC
3.1. データの種類と収集 MOC
- データの種類
- データ収集の方法 (概要) (観察研究、実験、調査など)
- 標本化 (Sampling) の基本 (ランダムサンプリングなど - 推測統計学で詳述)
3.2. データの整理と視覚化 MOC
- 度数分布表 (Frequency Distribution Table)
- グラフによるデータの視覚化
- ヒストグラム (Histogram) (量的データ)
- 度数折れ線
- Bar Graph) (質的データ、離散的量的データ)
- 円グラフ (Pie Chart) (構成割合)
- 幹葉図 (Stem-and-Leaf Plot)
- ドットプロット (Dot Plot)
- Box-and-Whisker Plot) (後述)
- 散布図 (Scatter Plot) (2変量データ、後述)
- (オプション) Q-Qプロット (Quantile-Quantile Plot) (正規性の確認など)
- (オプション) 時系列プロット (Time Series Plot)
3.3. 代表値 (Measures of Central Tendency) MOC
- 平均 (Mean)
- [[算術平均 (Arithmetic Mean) / 標本平均 (Sample Mean)
x̄と母平均 (Population Mean)μ]] - 加重平均 (Weighted Mean)
- 幾何平均 (Geometric Mean)
- 調和平均 (Harmonic Mean)
- トリム平均 (Trimmed Mean) (外れ値対策)
- [[算術平均 (Arithmetic Mean) / 標本平均 (Sample Mean)
- 中央値 (Median)
- 最頻値 (Mode)
- 平均、中央値、最頻値の関係と分布の形状 (対称、右に歪む、左に歪む)
3.4. Variability) MOC
- 範囲 (Range) (最大値 - 最小値)
- 四分位数 (Quartiles) と四分位範囲 (IQR - Interquartile Range)
- 中央値), Q3 (第3四分位数)
[[IQR = Q3 - Q1]]- 外れ値の検出 (1.5 * IQRルール)
- 分散 (Variance)
- [[標本分散 (Sample Variance)
s^2]] (n-1で割る理由 - 不偏性) - [[母分散 (Population Variance)
σ^2]] (Nで割る)
- [[標本分散 (Sample Variance)
- 標準偏差 (Standard Deviation)
- [[標本標準偏差 (Sample Standard Deviation)
s]] - [[母標準偏差 (Population Standard Deviation)
σ]]
- [[標本標準偏差 (Sample Standard Deviation)
- 変動係数 (Coefficient of Variation - CV) (平均に対する相対的なばらつき)
- (オプション) 平均絶対偏差 (Mean Absolute Deviation - MAD)
- Z-score)
z = (x - μ) / σまたはz = (x - x̄) / s
3.5. データの要約と箱ひげ図 MOC
- 5数要約 (Five-Number Summary) (最小値, Q1, 中央値, Q3, 最大値)
- 箱ひげ図の作成と解釈
3.6. 2変量データの記述統計 (相関と回帰の導入) MOC
- 散布図 (Scatter Plot) と相関の視覚的把握
- 共分散 (Covariance) - 記述統計版
- ピアソンの積率相関係数 (Pearson Correlation Coefficient - r)
- 単回帰分析 (Simple Linear Regression) - 記述的側面
- 回帰直線 (最小二乗法による決定)
- 回帰係数 (傾きと切片) の解釈
- R^2) (当てはまりの良さ)
- (オプション) スピアマンの順位相関係数 (Spearman’s Rank Correlation Coefficient)
4. 推測統計学 (Inferential Statistics) MOC
4.1. 標本抽出と標本分布 MOC
- 母集団 (Population) と標本 (Sample)
- なぜ標本抽出を行うのか (全数調査の困難性)
- 確率標本抽出法 (Probability Sampling Methods)
- (オプション) 非確率標本抽出法
- 標本誤差 (Sampling Error) と非標本誤差 (Non-sampling Error)
- 統計量 (Statistic) と母数 (Parameter)
- 標本分布 (Sampling Distribution)
- 標本平均の標本分布 (中心極限定理との関連)
- 標本比率の標本分布
- 標本分散の標本分布 (カイ二乗分布)
- 標準誤差 (Standard Error)
4.2. 点推定 (Point Estimation) MOC
- 推定量 (Estimator) と推定値 (Estimate)
- 望ましい推定量の性質
- 不偏性 (Unbiasedness) (
E[θ̂] = θ)- 不偏推定量 (Unbiased Estimator) (例: 標本平均、不偏分散)
- 最小分散
- 一致性 (Consistency) (標本サイズ大で母数に収束)
- (オプション) 漸近正規性 (Asymptotic Normality)
- (オプション) 十分性 (Sufficiency)
- 不偏性 (Unbiasedness) (
- 点推定の方法 (概要)
4.3. 区間推定 (Interval Estimation) MOC
- 区間推定とは (母数をある確率で含む区間を推定)
- 信頼区間 (Confidence Interval - CI)
- Confidence Coefficient) (例: 95%信頼区間)
- 信頼区間の解釈 (誤解しやすい点)
- 母平均の信頼区間
- 母分散が既知の場合 (正規分布) (Z分布利用)
- 母分散が未知の場合 (正規分布) (t分布利用)
- 大標本の場合 (中心極限定理による正規近似)
- 母比率の信頼区間
- 母分散の信頼区間 (カイ二乗分布利用)
- (オプション) 2つの母平均の差の信頼区間
- (オプション) 2つの母比率の差の信頼区間
- (オプション) 信頼区間の幅と標本サイズの関係
4.4. 仮説検定 (Hypothesis Testing) MOC
- 仮説検定の基本概念
- 仮説検定とは (母集団に関する仮説の当否を標本から判断)
- 帰無仮説 (Null Hypothesis - H₀) (棄却を目指す仮説)
- 対立仮説 (Alternative Hypothesis - H₁ or Ha) (帰無仮説が棄却された場合に採択される仮説)
- 検定統計量 (Test Statistic)
- Critical Region) と採択域 (Acceptance Region)
- 有意水準 (Significance Level - α) (第一種の誤りの確率の上限)
- 第一種の誤り (Type I Error) (真である帰無仮説を棄却する誤り
P(Reject H₀ | H₀ is true) = α) - 第二種の誤り (Type II Error) (偽である帰無仮説を採択する誤り
P(Accept H₀ | H₀ is false) = β) - 検出力 (Power of a Test) (
1 - β = P(Reject H₀ | H₀ is false)) - p値 (p-value)
- 両側検定 (Two-tailed Test) と片側検定 (One-tailed Test)
- 仮説検定の手順
- 母平均に関する検定
- 母比率に関する検定 (正規近似によるZ検定)
- 母分散に関する検定 (カイ二乗検定)
- 2つの母集団に関する検定
- (オプション) 適合度検定 (Goodness-of-Fit Test) - カイ二乗検定
- (オプション) 独立性の検定 (Test of Independence) - カイ二乗検定 (分割表)
- (オプション) 分散分析 (ANOVA - Analysis of Variance)
- (オプション) ノンパラメトリック検定 (Nonparametric Tests) (ウィルコクソンの符号順位検定、マン・ホイットニーのU検定など - 概要)
- (オプション) 検定の多重性とp値の調整 (ボンフェローニ補正など)
5. 概要) ベイズ統計学入門 MOC
- ベイズ統計学の考え方
- ベイズの定理の再訪 (パラメータ推定への応用)
- 事前分布 (Prior Distribution)
- 尤度関数 (Likelihood Function) (再掲)
- 事後分布 (Posterior Distribution)
Posterior ∝ Likelihood × Prior - 事後モード, 区間推定: 信用区間)
- 主観確率と客観確率
- ベイズ統計学と頻度論統計学 (古典的統計学) の違い
- ベイズ更新 (Bayesian Updating)
- (概要) マルコフ連鎖モンテカルロ法 (MCMC - Markov Chain Monte Carlo) (事後分布の計算が困難な場合)
- ベイズ統計学の応用 (迷惑メールフィルタ、機械学習モデルなど)
6. 概要) モンテカルロ法入門 MOC
- モンテカルロ法とは (乱数を用いたシミュレーションによる数値計算法)
- モンテカルロ法の基本手順
- 応用例
- (概要) 擬似乱数生成 (Pseudo-random Number Generation)
- (概要) ブートストラップ法 (Bootstrap Method) (リサンプリングによる統計的推測)
7. 確率と統計のコンピュータサイエンス応用例 MOC (各分野へのリンク)
- 機械学習 (分類、回帰、クラスタリング、ベイズ分類器、確率モデル、損失関数)
- データマイニング (相関ルール、異常検知)
- 自然言語処理 (n-gramモデル、隠れマルコフモデル)
- コンピュータビジョン (確率的画像モデル)
- アルゴリズム設計と分析 (ランダム化アルゴリズム、平均ケース分析)
- ネットワーク工学 (キューイング理論、トラフィックモデリング)
- ソフトウェアテスト (統計的テスト、信頼性モデル)
- 暗号理論 (確率的素数判定)
- シミュレーションとモデリング (性能評価、システム分析)
- A/Bテストとウェブ解析