round(qt(0.05,3),2)
기말고사
1.
중회귀모형 \(y = X\beta + \epsilon, \epsilon \sim N(0_n, I\sigma^2)\)에서 \(X\)가 \(n \times (p+1)\) 행렬이고, \(rank\)가 \(p+1\) 이라면 적합된 모형 \(\hat{y} = X \hat{\beta}\)에 대하여 다음을 증명하여라. 단, \(\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}\)
(1)
\(\sum^n_{j=1} Var(\hat{y}_j) = (p+1) \sigma^2\)
answer
\(\hat{\bf{y}}= X\hat{\beta} = X(X^\top X)^{-1} X^\top y = Hy\)
\(Var(X\hat{\beta}) = XVar(\hat{\beta})X^\top\)
\(Var(\hat{\beta}) = Var((X^\top X)^{-1} X^\top y) = (X^\top X)^{-1} X^\top Var(y)X(X^\top X)^{-1} = (X^\top X)^{-1} X^\top X(X^\top X)^{-1} \sigma^2 = (X^\top X )^{-1} \sigma^2\)
\(Var(\hat{y}) = Var(X\hat{\beta}) = X(X^\top X)^{-1} X^\top \sigma^2\)
\(\to Var(\hat{y}) = HVar(y) H^\top = HH\sigma^2 = H\sigma^2\)
\(\star H^\top = H, H^2 = H, Var(y) = I_n \sigma^2\)
\(\sum^{n}_{j=1} Var(\hat{y}_j) = tr(Var(\hat{y})) = tr(H\sigma^2) = \sigma^2 tr(H) = tr((X^\top X)^{-1} X^\top X)\sigma^2 = tr(I_{p+1})\sigma^2 = (p+1)\sigma^2\)
\(\star tr(X (X^\top X)^{-1} X^\top)\)
(2)
\(Cov(\mathbf{e,y}) = \sigma^2[I_n - X(X^\top X)^{-1} X^\top]\)
answer
\(\bf{e} = y - \hat{y} = y - Hy = (I-H)y\)
\(Cov(\bf{e},y) = Cov((I-H)y,y) = (I-H)Var(y) = (I-H) \sigma^2\)
\(\star Cov(Ax,y) = A Cov(X,Y)\)
\(\star Var(y) = \sigma^2\)
(3)
\(Cov(\mathbf{e,\hat{y}}) = O_n\)
answer
\(Cov(e(I - H)\bf{y},Hy) = (I-H) Cov(y,y)H^\top = (I-H)H\sigma^2 = \mathbb{O}_n \sigma^2\)
\(\star Cov(Ax,By) = ACov(X,Y)B^\top\)
\(\star H^\top= H\)
\(\star H^2 = H\)
(4)
\(Cov(\mathbf{e,\hat{\beta}}) = O_{n \times (p+1)}\)
answer
\(Cov((I-H)\bf{y},(X^\top X)^{-1} y) = (I-H) Cov(y,y) X (X^\top X)^{-1} = (I - X(X^\top X)^{-1} X^\top ) X (X^\top X)^{-1} \sigma^2 = \{ X(X^\top X)^{-1} - X(X^\top X)^{-1} \} \sigma^2 = \mathbb{O}_{n \times ([+1)}\)
(5)
\(Cov(\mathbf{\epsilon, \hat{\beta}}) = \sigma^2 X(X^\top X)^{-1}\)
answer
\(\bf{\hat{\beta}} = (X^\top X)^{-1} X^\top y = (X^\top X)^{-1} X^\top (X\beta + \epsilon) = \beta + (X^\top X)^{-1} X^\top \epsilon\)
\(Cov(\bf{\epsilon} , \beta + (X^\top X)^{-1} X^\top \epsilon ) = Cov(\epsilon, \beta) + Cov(\epsilon, \epsilon)X(X^\top X)^{-1} = \sigma^2 X(X^\top X)^{-1}\)
\(\star Cov(\epsilon, \beta) = 0\)
\(\star Cov(\epsilon, \epsilon) = I_n \sigma^2\)
(6)
\(\mathbf{e^\top y} = SSE\)
answer
\(\sum^{n}_{j=1} e_j y_j = \bf{e^\top y} = \{ (I - H)y\}^\top y = y^\top (I-H)y\)
\(\star \bf{e}^\top (e_1, \dots , e_n) = (y-\hat{y})^\top\)
\(\star \bf{y}^\top = (y_1 , \dots , y_n)\)
\(SSE = \sum^n_{j=1} (y_i - \hat{y}_j)^2 = (\bf{y} - \hat{y} ) ^\top ( y - \hat{y} ) = e^\top e = \{ (I - H)y \}^\top \{ (I - H)y \} = y^\top (I - H) (I-H)y = y^\top (I - H)y\)
\(\star I - H_H+H^2 = I-H, H^2 = H\)
\(\therefore \sum^{n}_{j=1} e_j y_j = SSE\)
(7)
\(\mathbf{e^\top \hat{y}}=0\)
answer
\(\sum^{n}_{j=1} \bf{e_j \hat{y}_j} = e^\top \hat{y} = y^\top (I-H) Hy = y^\top_{1\times n} \mathbb{O}_{n\times n} y_{n \times 1} = 0\)
\(\star H - H^2 = H - H = \mathbb{O}_{n \times n}\)
(8)
\(E(\frac{SSE}{n-p-1}) = \sigma^2\)
answer
정리 5.1
\(y \sim N(\mu,V)\) 이면
\(E(y^\top A y) = tr(AV) + \mu^\top A \mu, cov(y,y^\top A y) = 2VA\mu\)
\(\frac{SSE}{\sigma^2} = y^\top \frac{1}{\sigma^2}(I-H)y\)
\(B = \frac{1}{\sigma^2}(I-H)\)
\(y \sim N(X\beta, I \sigma^2)\)
\(BV = \frac{1}{\sigma^2}(I-H)I\sigma^2 = B, BV=B\)
\(B, BV\)는 멱등행렬
\(tr(BV) = tr(B) = tr(I-H) = tr(I) - tr(H) = n-p-1\)
\(\star\) \(X\)가 \(n \times (p+1)\) 행렬이고, \(rank\)가 \(p+1\), \(\therefore tr(H) = p+1\)
\(\mu = X B\)
\(B = \frac{1}{\sigma^2}(I-H)\)
\(B\mu = \frac{1}{\sigma^2}(I-H) X \beta = \frac{1}{\sigma^2}(X B - HXB) = 0\)
\(\star HX = X\)
\(\therefore \mu^\top B \mu = 0\)
\(E(\frac{SSE}{\sigma^2}) = n-p-1\)
\(E(SSE) = (n-p-1)\sigma^2\)
\(\therefore E(\frac{SSE}{(n-p-1)}) = \sigma^2\)
2.
다음의 데이터에 대하여 모형 \(y_i = \beta_0 + \beta_1 x_{1j} + \beta_2 x_{2j} + \epsilon_j, \epsilon_j \sim N(0,\sigma^2)\)이 옳다고 가정하고 질문에 답하여라.
\(y\) | 1 | 5 | 0 | 4 | 4 | -1 |
---|---|---|---|---|---|---|
\(x_1\) | 1 | 2 | 1 | 3 | 3 | 3 |
\(x_2\) | 1 | 1 | 2 | 1 | 2 | 3 |
(1)
행렬을 이용하여 중회귀모형을 정의하여라(\(X,\mathbf{y,\beta,\epsilon}\)을 정확하게 표현)
answer
\(\mathbf{y = X\beta + \epsilon, \epsilon} \sim N(X\mathbf{\beta}, I_n\sigma^2)\)
\(\mathbf{y} = \begin{pmatrix} 1 \\5\\0\\4\\4\\-1 \end{pmatrix}, X = \begin{pmatrix} 1&1&1\\1&2&1\\1&1&2\\1&3&1\\1&3&2\\1&3&3 \end{pmatrix}, \mathbf{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \beta_2\end{pmatrix}, \mathbf{\epsilon} = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \epsilon_3 \\ \epsilon_4 \\ \epsilon_5 \\ \epsilon_6\end{pmatrix}\)
- 위에서 구한 \(X,\mathbf{y}\)에 대하여 아래의 결과를 얻었을 때, 다음 물음에 답하여라.
\[(X^\top X)^{-1} = \begin{pmatrix} 1.52 & -0.35 & -0.36 \\ -0.35 & 0.23 & -0.09 \\ -0.36 & -0.09 & 0.34 \end{pmatrix}, X^\top \mathbf{y} = \begin{pmatrix} 13 \\ 32 \\ 15 \end{pmatrix}, \mathbf{y^\top y} = 59\]
(2)
\(\beta_0, \beta_1, \beta_2\)를 추정하시오.
answer
\(\mathbf{\hat{\beta}} = (X^\top X)^{-1} X^\top \mathbf{y} = \begin{pmatrix} 3.16 \\ 1.46 \\ -2.46 \end{pmatrix}\)
(3)
분산분석표를 작성하고, 유의수준 \(\alpha=0.1\)에서 회귀직선에 대한 유의성 검정을 수행하시오.
answer
요인 | 제곱합(SS) | 자유도(df) | 평균제곱(MS) | \(F_0\) |
---|---|---|---|---|
회귀 | 23.0769 | 2 | 11.5385 | 4.4628 |
잔차 | 7.7564 | 3 | 2.5855 | |
계 | 30.8333 | 5 |
\(SST = \mathbf{y^\top y} - \frac{1}{n}(\sum y_i)^2 = 59 - 28.1667 = 30.8333\)
\(SSR = SST - SSE\)
-
\(H_0: \beta_1 = \beta_2 = 0 \text{ vs. } H_1 : \text{ not } H_0\)
-
기각역: \(F_0 \ge F_{0.1}(2,3) = 5.46\)
-
결론: 기각역에 속하지 않으므로 \(H_0\) 기각 못함. 즉, 회귀모형은 유의수준 0.1에서 유의하지 않다.
(4)
결정계수(\(R^2\))와 수정된 결정계수(\(R^2_{sdj}\)) 구하시오.
answer
\(R^2 = \frac{SSR}{SST} = 0.7484, R^2_{adj} = 1-\frac{SSE/(n-p-1)}{SST/(n-1)} = 0.5807\)
(5)
오차항의 분산 \(\sigma^2\)에 대한 추정치를 구하시오.
answer
\(\hat{\sigma}^2 = MSE = \frac{SSE}{n-p-1} = 2.5855\)
(6)
\(\hat{\beta}_2\)의 의미를 설명하고, 가설 \(H_0: \beta_2 = 0, H_1 : \beta_2 <0\)을 \(\alpha = 0.05\)로 검정하시오.
answer
\(X_1\)이 일정할 떄, \(X_2\)가 1단위 증가하면 \(y\)는 \(\hat{\beta}_2\)만큼 증가한다.
가설검정
-
\(Var(\hat{\beta}_2) = (X^\top X)^{-1}_{(3,3)} \sigma^2 = 0.34 \sigma^2\)
-
\(\hat{s.e.}(\hat{\beta}_2) = \sqrt{0.34 \times MSE } = \sqrt{0.34 \times 2.5855} = 0.9376\)
-
\(t_0 = \frac{-2.46}{0.9376} = -2.62372\)
-
기각역: \(t_0 < -t_{0.05}(3) = -2.35\)
-
결론: \(H_0\)기각 가능, 즉 0보다 작다고 할 수 있다.
(7)
\(\beta_1\)의 \(90\)% 신뢰구간을 구하시오.
answer
\(Var(\hat{\beta}_1) = (X^\top X)^{-1}_{(2,2)} \sigma^2 = 0.23 \sigma^2\)
\(\hat{s.e.}(\hat{\beta}_1) = \sqrt{0.23 \times 2.5855} = 0.7711\)
\(t_{0.5}(3) = 2.35\)
\(\hat{\beta}_1 \pm t_{0.05}(3)\hat{s.e.}(\hat{\beta}_1) = (-0.3521,3.2721)\)
round(qt(0.95,3),2)
(8)
\(x_1 = x_2 = 2\)에서 \(E(y)\)의 \(95\)% 신뢰구간을 구하시오.
answer
\(x_0 = \begin{pmatrix} 1 \\ 2\\2\end{pmatrix}\)
\(\hat{\mu}_0 = x^\top_0 \mathbf{\hat{\beta}} = \begin{pmatrix} 1 &2&2\end{pmatrix}\begin{pmatrix}3.16\\1.46\\-2.46\end{pmatrix} = 1.16\)
\(Var(\hat{\mu}_0) = x_0^\top(X^\top X)^{-1} x_0 \sigma^2 = 0.24 \sigma^2\)
\(\star x_0^\top(X^\top X)^{-1} x_0 = \begin{pmatrix}1&2&2\end{pmatrix}\begin{pmatrix}1.52&-0.35&-0.36\\-0.35&0.23&-0.09\\-0.36&-0.09&0.34\end{pmatrix} \begin{pmatrix}1\\2\\2 \end{pmatrix} = 0.24\)
\(\hat{s.e.}(\hat{\mu}_0) = \sqrt{0.24 \times 2.5855} = 0.7877\)
\(1.16 \pm t_{0.025}(3) \hat{s.e.}(\hat{\mu}_0) = (-1.3449,3.6649)\)
round(qt(0.975,3),2)
3.
혈압이 체중과 성별에 따라 어떻게 달라지는가에 대한 모형을 적합하려고 한다. 데이터는 아래와 같을 때, 다음 물음에 답하여라.
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
---|---|---|---|---|---|---|---|---|---|---|
혈압 | 120 | 130 | 130 | 155 | 149 | 150 | 160 | 125 | 135 | 140 |
체중 | 70 | 60 | 88 | 101 | 80 | 98 | 90 | 77 | 65 | 70 |
성별 | 남 | 여 | 남 | 여 | 여 | 남 | 여 | 남 | 여 | 여 |
(1)
혈압을 예측하기 위하여 교호작용을 포함하는 중회귀모형을 정의하시오.(성별의 경우 남자=1)
answer
\(y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \beta_3x_{i1}x_{i2} + \epsilon_i, \epsilon_i, i=1,\dots,10, \epsilon_i \sim_{i.i.d.}N(0,\sigma^2)\)
\(x_1\) : 체중, \(y\): 혈압
\(x_2\): 성별, \(x_2 = \begin{cases}1 & \text{남자}\\0 & \text{여자}\end{cases}\)
(2)
위의 모형을 행렬 형태로 표현하시오.(\(X,\mathbf{y,\beta,\epsilon}\)을 정확하게 표현)
answer
\(\mathbf{y} = X\mathbf{\beta + \epsilon}, \mathbf{\epsilon} \sim N(0,I_n\sigma^2)\)
\(\mathbf{y} = \begin{pmatrix}120\\130\\130\\155\\149\\150\\160\\125\\135\\140\end{pmatrix}, X = \begin{pmatrix}1& 70&1&70\\1&60&0&0\\1&88&1&88\\1&101&0&0\\1&80&0&0\\1&98&1&98\\1&90&0&0\\1&77&1&77\\1&65&0&0\\1&70&0&0 \end{pmatrix}, \mathbf{\beta} = \begin{pmatrix}\beta_0\\ \beta_1 \\ \beta_2 \end{pmatrix}, \mathbf{\epsilon} = \begin{pmatrix}\epsilon_1 \\ \epsilon_2\\ \epsilon_3\\ \epsilon_4\\ \epsilon_5\\ \epsilon_6\\ \epsilon_7\\ \epsilon_8\\ \epsilon_9\\ \epsilon_{10} \end{pmatrix}\)
(3)
위 모형의 적합 결과가 다음과 같다고 하자. 빈 칸을 채워 넣으시오. 마지막 칸에는 개별회귀계수에 대한 유의성검정을 위한 가설과, 검정결과(기각, 기각못함)를 적으시오.(풀이 있어야 함) 그리고 분산분석표를 이용하여 회귀모형의 유의성 검정을 하시오.(유의수준 \(\alpha = 0.05\))
answer
\[\text{추정}\]
Estimate | Std.Error | t value | 검정결과 | |
---|---|---|---|---|
절편\(\beta_0\) | \(\hat{\beta}_0\)=70.681 | 10.779 | 6.557 | 기각 |
체중\(\beta_1\) | \(\hat{\beta}_1\)=0.988 | 0.1461 | 6.763 | 기각 |
성별\(\beta_2\) | \(\hat{\beta}_2\)=-32.435 | 15.830 | -2.049 | 기각못함 |
교호작용\(\beta_3\) | \(\hat{\beta}_3\)=0.138 | 0.197 | 0.702 | 기각못함 |
\(t_0 = \frac{\hat{\beta}_i}{\hat{s.e.}(\hat{\beta}_i)}\), 기각역 \(|t_0| > t_{\alpha/2}(n-p-1) = t_{0.025}(6) = 2.45\)
\(H_0: \beta_i = 0, H_1: \beta_i \neq 0\)
round(qt(0.975,6),2)
\[\text{분산분석표}\]
요인 | 제곱합(SS) | 자유도(df) | 평균제곱(MS) | \(F_0\) |
---|---|---|---|---|
회귀 | 1578.14 | 3 | 526.0467 | 42.5031 |
잔차 | 74.26 | 6 | 12.3767 | |
계 | 1652.4 | 9 |
\(H_0 : \beta_1 = \beta_2 = \beta_3 = 0 \text{ vs. } H_1 \text{ not } H_0\)
\(F_0 > F_{\alpha}(p,n-p-1) = F_{0.05}(3,6) = 4.76\)
이므로 \(H_0\)기각 가능, 즉 유의수준 0.05에서 회귀직선 유의
(4)
(3)의 결과를 보고, 결정계수(\(R^2\)) 와 수정된 결정계수(\(R^2_{sdj}\)) 구하시오.
answer
\(R^2 = \frac{SSR}{SST} = 0.9551, R^2_{adj} = 1-\frac{SSE/(n-p-1)}{SST/(n-1)} = 0.9326\)
round(1578.14/1652.4,4)
round(1-(74.26/6)/(1652.4/9),4)
(5)
(3)번의 결과를 보고 모형 적합 결과를 설명하여라.(각 회귀계수의 의미와 유의성 검정 결과)
answer
\(E(y|\text{남성}) = \beta_0 + \beta_1 x_1+\beta_2+\beta_3x_1 = (\beta_0+\beta_2) + (\beta_1 + \beta_3)x_1\)
\(E(y|\text{여성}) = \beta_0 + \beta_1x_1\)
\(\hat{\beta}_2\): 유의하지 않음: 남성과 여성의 절편 차이 없음
\(\hat{\beta}_3\): 유의하지 않음: 남성과 여성의 기울기 차이 없음
answer
(6)
이번에는 교호작용을 제외한 모형을 적합해 보았다. 모형을 정의하여라.
answer
\(y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \epsilon_i , i=1,\dots, 10, \epsilon_i \sim N(0,\sigma^2)\)
(7)
(7)번의 결과가 다음과 같을 때, 빈 칸을 채우고 적합 결과에 대해 설명하여라. (3)번 참고.
answer
Estimate | Std.Error | t value | 검정결과 | |
---|---|---|---|---|
절편 | 65.137 | 7.059 | 9.227 | 기각 |
체중 | 1.064 | 0.094 | 11.264 | 기각 |
성별 | -21.482 | 2.508 | -8.565 | 기각 |
\(H_0: \beta_i = 0 \text{ vs. } H_1 : \beta_i \neq 0, i=1,2,3\)
기각역: \(|t_0| > t_{\alpha/2}(n-p-1) = t_{0.025}(7) = 2.36\)
\(E(y|\text{남성}) = \beta_0 + \beta_1 x_1 + \beta_2 = \beta_0 + \beta_2 + \beta_1 x_1\)
\(E(y|\text{여성}) = \beta_0 + \beta_1x_1\)
\(H_0:\beta_2\neq 0\)을 기각할 수 있으므로, 성별에 따른 평균 혈압이 다르다고 할 수 있다.
round(qt(0.975,7),2)
<- c(120,130,130,155,149,150,160,125,135,140) # 혈압
y <- c(70,60,88,101,80,98,90,77,65,70) # 체중
x1 <- c(1,0,1,0,0,1,0,1,0,0) # 성별, 남, 여, 남, 여, 여, 남, 여, 남, 여, 여
x2 <- data.frame(y,x1,x2)
df anova(lm(y~x1+x2,df))
Df | Sum Sq | Mean Sq | F value | Pr(>F) | |
---|---|---|---|---|---|
<int> | <dbl> | <dbl> | <dbl> | <dbl> | |
x1 | 1 | 729.9696 | 729.96957 | 27.92185 | 0.001142928 |
x2 | 1 | 739.4272 | 739.42724 | 28.28361 | 0.001101377 |
Residuals | 7 | 183.0032 | 26.14331 | NA | NA |
4.
중학교 2학년 학생 중에서 15명을 임의로 추출하여 각 학생의 약력(\(kg:x_1\)), 신장(\(cm:x_2\)), 체중(\(kg:x_3\))과 원반던지기에서 던진 거리(m)를 측정하였다. \(x_1,x_2,x_3\)를 모두 사용하여 \(y\)에 대한 중회귀모형을 적합시킨 후 회귀진단을 통해 다음의 결과를 얻었다. 이상치, 지렛대점, 영향을 크게 주는 측정값이 어떤 것인가를 판정하시오.
\(\epsilon_i\) | \(r_i\) | \(r^*_i\) | diffit | covratio | cook.d | \(h_{ii}\) | |
---|---|---|---|---|---|---|---|
1 | 0.3190 | 0.1547 | 0.1476 | 0.0804 | 1.8818 | 0.0018 | 0.2287 |
2 | 3.8022 | 1.9823 | 2.3575 | 1.6656 | 0.3746 | 0.4904 | 0.3329 |
3 | -2.8042 | -1.4125 | -1.4885 | -0.9407 | 0.9201 | 0.1992 | 0.2854 |
4 | -0.5070 | -0.2580 | -0.2468 | -0.1616 | 2.0414 | 0.0071 | 0.3000 |
5 | 1.2883 | 0.6588 | 0.6410 | 0.4264 | 1.7978 | 0.0480 | 0.3067 |
6 | 0.7918 | 0.4639 | 0.4467 | 0.4221 | 2.5609 | 0.0480 | 0.4717 |
7 | -1.3187 | -0.6171 | -0.5989 | -0.2731 | 1.5360 | 0.0198 | 0.1721 |
8 | 0.0080 | 0.0040 | 0.0038 | 0.0022 | 1.9843 | 0.0000 | 0.2622 |
9 | -0.7848 | -0.4366 | -0.4199 | -0.3530 | 2.3302 | 0.0337 | 0.4141 |
10 | 0.0298 | 0.0141 | 0.0134 | 0.0064 | 1.7932 | 0.0000 | 0.1836 |
11 | -3.0805 | -1.3628 | -1.4252 | -0.4014 | 0.7542 | 0.0368 | 0.0735 |
12 | -0.4829 | -0.2259 | -0.2159 | -0.0981 | 1.7337 | 0.0026 | 0.1711 |
13 | 2.7167 | 1.2862 | 1.3305 | 0.6467 | 0.9431 | 0.0977 | 0.1911 |
14 | -2.8386 | -1.3880 | -1.4571 | -0.8226 | 0.8938 | 0.1535 | 0.2417 |
15 | 2.8609 | 1.5289 | 1.6427 | 1.2458 | 0.8869 | 0.3361 | 0.3651 |
answer
- leverage point
\(h_{ii} > 2\bar{n}\) 또는 \(3\bar{n}\)
\(\bar{h} = \frac{p+1}{n} = \frac{3+1}{15} = 0.267\)
\(2\bar{h} = 0.53, 3\bar{h} = 0.8\) .없음
- 이상치
\(|r^*_i| \ge t_{\alpha/2}(n-p-1) = t_{0.05/2}(15-3-2) = 2.23\) 2번 관측값
round(qt(0.975,10),2)
- 영향점
\(|Diffs(i) \ge 2\sqrt{\frac{p+1}{n-p-1}} = 1.206 \to\) 2,15번이 영향점
\(|D(i) \ge F_{0.5}(p+1,n-p-1) = F_{0.5}(4,11) = 0.96\)
\(|CovRatio(i) -1| \ge 3 \frac{p+1}{n} = 0.8\)