协方差矩阵及相关矩阵

2014年11月10日

 

协方差矩阵

协方差矩阵[latex]cov(X)=\frac{1}{n-1}(X-\bar{X})'(X-\bar{X})[/latex]。

[latex]\bar{X}[/latex]为矩阵X每一列的平均数。

[latex]\bar{X}=\begin{bmatrix}
\mu_1 & \mu_2 & \cdots & \mu_p\\
\mu_1 & \mu_2 & \cdots & \mu_p\\
\vdots & \vdots & \ddots & \vdots \\
\mu_1 & \mu_2 & \cdots & \mu_p
\end{bmatrix}[/latex]

标准分数矩阵

标准分数矩阵[latex]zscore(X)=(X-\bar{X})./sd(X)[/latex](定义1)

如果矩阵X某一列上的值全部相同,即该列的标准差为0,则矩阵X的标准分数矩阵不存在。

[latex]sd(X)[/latex]为矩阵每一列的标准差。

[latex]sd(X)=\begin{bmatrix}
\sigma_1 & \sigma_2 & \cdots & \sigma_p\\
\sigma_1 & \sigma_2 & \cdots & \sigma_p\\
\vdots & \vdots & \ddots & \vdots \\
\sigma_1 & \sigma_2 & \cdots & \sigma_p
\end{bmatrix}[/latex],其中[latex]\sigma_j=\sqrt{\frac{1}{n-1}\sum (x_ij-\mu_j)^2}[/latex]。

定义1用了按元素除法(点除./),如果不用按元素除法,则可定义为

[latex]zscore(X)=(X-\bar{X})\begin{bmatrix}
\frac{1}{\sigma_1} & 0 & \cdots & 0\\
0 & \frac{1}{\sigma_2} & \cdots & 0\\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \frac{1}{\sigma_p}
\end{bmatrix}[/latex]

所以标准分数矩阵的按元素表示形式为

[latex]zscore(X)=\begin{bmatrix}
z_{11} & z_{12} & \cdots & z_{1p}\\
z_{21} & z_{22} & \cdots & z_{2p}\\
\vdots & \vdots & \ddots & \vdots \\
z_{n1} & z_{n2} & \cdots & z_{np}
\end{bmatrix}[/latex],其中[latex]z_{ij}=\frac{x_{ij}-\mu_j}{\sigma_j}[/latex]。

性质

标准分数矩阵每一列的平均值为0,方差为1。

标准分数矩阵每一列的元素的平方和为n-1。下面予以证明:

[latex]\begin{align*}
\sum_{i=1}^{n}z_{ij}^2 &= \sum_{i=1}^{n}\frac{\left ( x_{ij}-\mu_j \right )^2}{\sigma_j^2}\\
&= \sum_{i=1}^{n}\frac{\left ( x_{ij}-\mu_j \right )^2}{\frac{1}{n-1}\sum_{i=1}^{n}(x_{ij}-\mu_j)^2}\\
&= \sum_{i=1}^{n}\frac{(n-1)\left ( x_{ij}-\mu_j \right )^2}{\sum_{i=1}^{n}(x_{ij}-\mu_j)^2}\\
&= (n-1)\frac{\sum_{i=1}^{n}\left ( x_{ij}-\mu_j \right )^2}{\sum_{i=1}^{n}(x_{ij}-\mu_j)^2}\\
&= n-1
\end{align*}[/latex]

 相关矩阵

设X为[latex]n \times p[/latex]的矩阵,则X的相关矩阵定义为[latex]correlation(X)=cov(zscore(X))[/latex]。