統計,機械学習 用語 英和辞典

C

consistent estimator : 一致推定量
サンプルサイズnが無限に増加した時(n→∞)に、真の値(母数)に収束する推定量。

数学的定義(簡単ver)
$$\hat{\theta} \xrightarrow{p} \theta \ (n \to \infty)$$

数学的定義(厳密ver)
$$
\forall \epsilon > 0,\;
\lim_{n \to \infty}
\operatorname{P}\left\{
\left|\hat{\theta}-\theta \right|<\epsilon
\right\}
=1
$$
これらを満たすとき、$\hat{\theta}$は$\theta$の一致推定量であると言う。

不遍推定量との違いは、
不偏推定量が推定量の期待値が真の母数にすることをが定義であるのに対して、
一致推定量は標本サイズが無限に大きくなったときに推定量が母数に確率的に収束すると言うことを述べている点。

critical value : 棄却限界値 / 臨界値
棄却されるギリギリの値。例えば $|Z_0|\ge1.96$の時、1.96が棄却限界値。

M

Mallows’s $C_p$

回帰モデルの「予測誤差の大きさ」と「モデルの複雑さ（パラメータ数）」のバランスを評価するためのモデル選択基準(情報量と同じ方向性の内容の評価基準)。
※値が小さいモデルの方が良い。

全部でk個の変数の中からp個だけ変数を選んだ時のモデルの良し悪しの評価を、以下の式で計算する。

\[ C_p = \frac{SSE_p}{s^2} – n + 2p \]

ここで
・ n : サンプルサイズ
・ $SSE_p$ : p個の変数でのSSE
・ $s^2$ : 全変数(すなわちk個の変数)に対する分散または RSSの平均である。
これら二つが同値であることは、
\[分散 = \frac{1}{n} \sum_{i=1}^n (X_i – \mu)^2 \]
を見れば、$s^2$ がRSSの平均としても解釈できることからわかる。

N

nonparametric : ノンパラメトリックな
parametricでない場合、nonparametricである。
すなわち、
・分布の予測に関して、なんの前提も置かない場合、nonparametricであると言う。
・有限個のパラメータで分布が完全に記述できない場合、(無限個のパラメータが必要な場合)、nonparametricであると言う。

parametric : パラメトリックな
分布の予測に関して、予めなんらかの前提を置く場合、parametricであると言う。
また、有限個のパラメータで分布が完全に記述できる時、その分布はparametricであると言う。

nuisance parameter : 局外/迷惑/撹乱パラメータ

P

plug-in principle : 挿入原理/差込原理
元の分布を推定するときに、真の値が未知である母数に、手元にあるデータから推定した値を代入して分布推定を進める考え方。

S

be specified : 指定される
e.g. $\theta_0$ is specified : $\theta_0$が指定される、与えられる

統計,機械学習用語英和辞典

C

M

N

P

S

コメント