协方差矩阵
协方差矩阵\(cov(X)=\frac{1}{n-1}(X-\bar{X})'(X-\bar{X})\)。
\(\bar{X}\)为矩阵X每一列的平均数。
\(\bar{X}=\begin{bmatrix}\mu_1 & \mu_2 & \cdots & \mu_p\\
\mu_1 & \mu_2 & \cdots & \mu_p\\
\vdots & \vdots & \ddots & \vdots \\
\mu_1 & \mu_2 & \cdots & \mu_p
\end{bmatrix}\)
标准分数矩阵
标准分数矩阵\(zscore(X)=(X-\bar{X})./sd(X)\)(定义1)
如果矩阵X某一列上的值全部相同,即该列的标准差为0,则矩阵X的标准分数矩阵不存在。
\(sd(X)\)为矩阵每一列的标准差。
\(sd(X)=\begin{bmatrix}
\sigma_1 & \sigma_2 & \cdots & \sigma_p\\
\sigma_1 & \sigma_2 & \cdots & \sigma_p\\
\vdots & \vdots & \ddots & \vdots \\
\sigma_1 & \sigma_2 & \cdots & \sigma_p
\end{bmatrix}\),其中\(\sigma_j=\sqrt{\frac{1}{n-1}\sum (x_ij-\mu_j)^2}\)。
定义1用了按元素除法(点除./),如果不用按元素除法,则可定义为
\(zscore(X)=(X-\bar{X})\begin{bmatrix}\frac{1}{\sigma_1} & 0 & \cdots & 0\\
0 & \frac{1}{\sigma_2} & \cdots & 0\\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \cdots & \frac{1}{\sigma_p}
\end{bmatrix}\)
所以标准分数矩阵的按元素表示形式为
\(zscore(X)=\begin{bmatrix}
z_{11} & z_{12} & \cdots & z_{1p}\\
z_{21} & z_{22} & \cdots & z_{2p}\\
\vdots & \vdots & \ddots & \vdots \\
z_{n1} & z_{n2} & \cdots & z_{np}
\end{bmatrix}\),其中\(z_{ij}=\frac{x_{ij}-\mu_j}{\sigma_j}\)。
性质
标准分数矩阵每一列的平均值为0,方差为1。
标准分数矩阵每一列的元素的平方和为n-1。下面予以证明:
\(\begin{align*}\sum_{i=1}^{n}z_{ij}^2 &= \sum_{i=1}^{n}\frac{\left ( x_{ij}-\mu_j \right )^2}{\sigma_j^2}\\
&= \sum_{i=1}^{n}\frac{\left ( x_{ij}-\mu_j \right )^2}{\frac{1}{n-1}\sum_{i=1}^{n}(x_{ij}-\mu_j)^2}\\
&= \sum_{i=1}^{n}\frac{(n-1)\left ( x_{ij}-\mu_j \right )^2}{\sum_{i=1}^{n}(x_{ij}-\mu_j)^2}\\
&= (n-1)\frac{\sum_{i=1}^{n}\left ( x_{ij}-\mu_j \right )^2}{\sum_{i=1}^{n}(x_{ij}-\mu_j)^2}\\
&= n-1
\end{align*}\)
相关矩阵
设X为\(n \times p\)的矩阵,则X的相关矩阵定义为\(correlation(X)=cov(zscore(X))\)。