Advanced Regression Analysis Final Term

Advanced Regression Analysis
Author

SEOYEON CHOI

Published

February 23, 2023

기말고사

1.

중회귀모형 \(y = X\beta + \epsilon, \epsilon \sim N(0_n, I\sigma^2)\)에서 \(X\)\(n \times (p+1)\) 행렬이고, \(rank\)\(p+1\) 이라면 적합된 모형 \(\hat{y} = X \hat{\beta}\)에 대하여 다음을 증명하여라. 단, \(\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}\)

(1)

\(\sum^n_{j=1} Var(\hat{y}_j) = (p+1) \sigma^2\)

answer

\(\hat{\bf{y}}= X\hat{\beta} = X(X^\top X)^{-1} X^\top y = Hy\)

\(Var(X\hat{\beta}) = XVar(\hat{\beta})X^\top\)

\(Var(\hat{\beta}) = Var((X^\top X)^{-1} X^\top y) = (X^\top X)^{-1} X^\top Var(y)X(X^\top X)^{-1} = (X^\top X)^{-1} X^\top X(X^\top X)^{-1} \sigma^2 = (X^\top X )^{-1} \sigma^2\)

\(Var(\hat{y}) = Var(X\hat{\beta}) = X(X^\top X)^{-1} X^\top \sigma^2\)

\(\to Var(\hat{y}) = HVar(y) H^\top = HH\sigma^2 = H\sigma^2\)

\(\star H^\top = H, H^2 = H, Var(y) = I_n \sigma^2\)

\(\sum^{n}_{j=1} Var(\hat{y}_j) = tr(Var(\hat{y})) = tr(H\sigma^2) = \sigma^2 tr(H) = tr((X^\top X)^{-1} X^\top X)\sigma^2 = tr(I_{p+1})\sigma^2 = (p+1)\sigma^2\)

\(\star tr(X (X^\top X)^{-1} X^\top)\)

(2)

\(Cov(\mathbf{e,y}) = \sigma^2[I_n - X(X^\top X)^{-1} X^\top]\)

answer

\(\bf{e} = y - \hat{y} = y - Hy = (I-H)y\)

\(Cov(\bf{e},y) = Cov((I-H)y,y) = (I-H)Var(y) = (I-H) \sigma^2\)

\(\star Cov(Ax,y) = A Cov(X,Y)\)

\(\star Var(y) = \sigma^2\)

(3)

\(Cov(\mathbf{e,\hat{y}}) = O_n\)

answer

\(Cov(e(I - H)\bf{y},Hy) = (I-H) Cov(y,y)H^\top = (I-H)H\sigma^2 = \mathbb{O}_n \sigma^2\)

\(\star Cov(Ax,By) = ACov(X,Y)B^\top\)

\(\star H^\top= H\)

\(\star H^2 = H\)

(4)

\(Cov(\mathbf{e,\hat{\beta}}) = O_{n \times (p+1)}\)

answer

\(Cov((I-H)\bf{y},(X^\top X)^{-1} y) = (I-H) Cov(y,y) X (X^\top X)^{-1} = (I - X(X^\top X)^{-1} X^\top ) X (X^\top X)^{-1} \sigma^2 = \{ X(X^\top X)^{-1} - X(X^\top X)^{-1} \} \sigma^2 = \mathbb{O}_{n \times ([+1)}\)

(5)

\(Cov(\mathbf{\epsilon, \hat{\beta}}) = \sigma^2 X(X^\top X)^{-1}\)

answer

\(\bf{\hat{\beta}} = (X^\top X)^{-1} X^\top y = (X^\top X)^{-1} X^\top (X\beta + \epsilon) = \beta + (X^\top X)^{-1} X^\top \epsilon\)

\(Cov(\bf{\epsilon} , \beta + (X^\top X)^{-1} X^\top \epsilon ) = Cov(\epsilon, \beta) + Cov(\epsilon, \epsilon)X(X^\top X)^{-1} = \sigma^2 X(X^\top X)^{-1}\)

\(\star Cov(\epsilon, \beta) = 0\)

\(\star Cov(\epsilon, \epsilon) = I_n \sigma^2\)

(6)

\(\mathbf{e^\top y} = SSE\)

answer

\(\sum^{n}_{j=1} e_j y_j = \bf{e^\top y} = \{ (I - H)y\}^\top y = y^\top (I-H)y\)

\(\star \bf{e}^\top (e_1, \dots , e_n) = (y-\hat{y})^\top\)

\(\star \bf{y}^\top = (y_1 , \dots , y_n)\)

\(SSE = \sum^n_{j=1} (y_i - \hat{y}_j)^2 = (\bf{y} - \hat{y} ) ^\top ( y - \hat{y} ) = e^\top e = \{ (I - H)y \}^\top \{ (I - H)y \} = y^\top (I - H) (I-H)y = y^\top (I - H)y\)

\(\star I - H_H+H^2 = I-H, H^2 = H\)

\(\therefore \sum^{n}_{j=1} e_j y_j = SSE\)

(7)

\(\mathbf{e^\top \hat{y}}=0\)

answer

\(\sum^{n}_{j=1} \bf{e_j \hat{y}_j} = e^\top \hat{y} = y^\top (I-H) Hy = y^\top_{1\times n} \mathbb{O}_{n\times n} y_{n \times 1} = 0\)

\(\star H - H^2 = H - H = \mathbb{O}_{n \times n}\)

(8)

\(E(\frac{SSE}{n-p-1}) = \sigma^2\)

answer

정리 5.1

\(y \sim N(\mu,V)\) 이면

\(E(y^\top A y) = tr(AV) + \mu^\top A \mu, cov(y,y^\top A y) = 2VA\mu\)

\(\frac{SSE}{\sigma^2} = y^\top \frac{1}{\sigma^2}(I-H)y\)

\(B = \frac{1}{\sigma^2}(I-H)\)

\(y \sim N(X\beta, I \sigma^2)\)

\(BV = \frac{1}{\sigma^2}(I-H)I\sigma^2 = B, BV=B\)

\(B, BV\)는 멱등행렬

\(tr(BV) = tr(B) = tr(I-H) = tr(I) - tr(H) = n-p-1\)

\(\star\) \(X\)\(n \times (p+1)\) 행렬이고, \(rank\)\(p+1\), \(\therefore tr(H) = p+1\)

\(\mu = X B\)

\(B = \frac{1}{\sigma^2}(I-H)\)

\(B\mu = \frac{1}{\sigma^2}(I-H) X \beta = \frac{1}{\sigma^2}(X B - HXB) = 0\)

\(\star HX = X\)

\(\therefore \mu^\top B \mu = 0\)

\(E(\frac{SSE}{\sigma^2}) = n-p-1\)

\(E(SSE) = (n-p-1)\sigma^2\)

\(\therefore E(\frac{SSE}{(n-p-1)}) = \sigma^2\)

2.

다음의 데이터에 대하여 모형 \(y_i = \beta_0 + \beta_1 x_{1j} + \beta_2 x_{2j} + \epsilon_j, \epsilon_j \sim N(0,\sigma^2)\)이 옳다고 가정하고 질문에 답하여라.

\(y\) 1 5 0 4 4 -1
\(x_1\) 1 2 1 3 3 3
\(x_2\) 1 1 2 1 2 3

(1)

행렬을 이용하여 중회귀모형을 정의하여라(\(X,\mathbf{y,\beta,\epsilon}\)을 정확하게 표현)

answer

\(\mathbf{y = X\beta + \epsilon, \epsilon} \sim N(X\mathbf{\beta}, I_n\sigma^2)\)

\(\mathbf{y} = \begin{pmatrix} 1 \\5\\0\\4\\4\\-1 \end{pmatrix}, X = \begin{pmatrix} 1&1&1\\1&2&1\\1&1&2\\1&3&1\\1&3&2\\1&3&3 \end{pmatrix}, \mathbf{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \beta_2\end{pmatrix}, \mathbf{\epsilon} = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \epsilon_3 \\ \epsilon_4 \\ \epsilon_5 \\ \epsilon_6\end{pmatrix}\)

  • 위에서 구한 \(X,\mathbf{y}\)에 대하여 아래의 결과를 얻었을 때, 다음 물음에 답하여라.

\[(X^\top X)^{-1} = \begin{pmatrix} 1.52 & -0.35 & -0.36 \\ -0.35 & 0.23 & -0.09 \\ -0.36 & -0.09 & 0.34 \end{pmatrix}, X^\top \mathbf{y} = \begin{pmatrix} 13 \\ 32 \\ 15 \end{pmatrix}, \mathbf{y^\top y} = 59\]

(2)

\(\beta_0, \beta_1, \beta_2\)를 추정하시오.

answer

\(\mathbf{\hat{\beta}} = (X^\top X)^{-1} X^\top \mathbf{y} = \begin{pmatrix} 3.16 \\ 1.46 \\ -2.46 \end{pmatrix}\)

(3)

분산분석표를 작성하고, 유의수준 \(\alpha=0.1\)에서 회귀직선에 대한 유의성 검정을 수행하시오.

answer

요인 제곱합(SS) 자유도(df) 평균제곱(MS) \(F_0\)
회귀 23.0769 2 11.5385 4.4628
잔차 7.7564 3 2.5855
30.8333 5

\(SST = \mathbf{y^\top y} - \frac{1}{n}(\sum y_i)^2 = 59 - 28.1667 = 30.8333\)

\(SSR = SST - SSE\)

- \(H_0: \beta_1 = \beta_2 = 0 \text{ vs. } H_1 : \text{ not } H_0\)

- 기각역: \(F_0 \ge F_{0.1}(2,3) = 5.46\)

- 결론: 기각역에 속하지 않으므로 \(H_0\) 기각 못함. 즉, 회귀모형은 유의수준 0.1에서 유의하지 않다.

(4)

결정계수(\(R^2\))와 수정된 결정계수(\(R^2_{sdj}\)) 구하시오.

answer

\(R^2 = \frac{SSR}{SST} = 0.7484, R^2_{adj} = 1-\frac{SSE/(n-p-1)}{SST/(n-1)} = 0.5807\)

(5)

오차항의 분산 \(\sigma^2\)에 대한 추정치를 구하시오.

answer

\(\hat{\sigma}^2 = MSE = \frac{SSE}{n-p-1} = 2.5855\)

(6)

\(\hat{\beta}_2\)의 의미를 설명하고, 가설 \(H_0: \beta_2 = 0, H_1 : \beta_2 <0\)\(\alpha = 0.05\)로 검정하시오.

answer

\(X_1\)이 일정할 떄, \(X_2\)가 1단위 증가하면 \(y\)\(\hat{\beta}_2\)만큼 증가한다.

가설검정

- \(Var(\hat{\beta}_2) = (X^\top X)^{-1}_{(3,3)} \sigma^2 = 0.34 \sigma^2\)

- \(\hat{s.e.}(\hat{\beta}_2) = \sqrt{0.34 \times MSE } = \sqrt{0.34 \times 2.5855} = 0.9376\)

- \(t_0 = \frac{-2.46}{0.9376} = -2.62372\)

- 기각역: \(t_0 < -t_{0.05}(3) = -2.35\)

- 결론: \(H_0\)기각 가능, 즉 0보다 작다고 할 수 있다.

round(qt(0.05,3),2)
-2.35

(7)

\(\beta_1\)\(90\)% 신뢰구간을 구하시오.

answer

\(Var(\hat{\beta}_1) = (X^\top X)^{-1}_{(2,2)} \sigma^2 = 0.23 \sigma^2\)

\(\hat{s.e.}(\hat{\beta}_1) = \sqrt{0.23 \times 2.5855} = 0.7711\)

\(t_{0.5}(3) = 2.35\)

\(\hat{\beta}_1 \pm t_{0.05}(3)\hat{s.e.}(\hat{\beta}_1) = (-0.3521,3.2721)\)

round(qt(0.95,3),2)
2.35

(8)

\(x_1 = x_2 = 2\)에서 \(E(y)\)\(95\)% 신뢰구간을 구하시오.

answer

\(x_0 = \begin{pmatrix} 1 \\ 2\\2\end{pmatrix}\)

\(\hat{\mu}_0 = x^\top_0 \mathbf{\hat{\beta}} = \begin{pmatrix} 1 &2&2\end{pmatrix}\begin{pmatrix}3.16\\1.46\\-2.46\end{pmatrix} = 1.16\)

\(Var(\hat{\mu}_0) = x_0^\top(X^\top X)^{-1} x_0 \sigma^2 = 0.24 \sigma^2\)

\(\star x_0^\top(X^\top X)^{-1} x_0 = \begin{pmatrix}1&2&2\end{pmatrix}\begin{pmatrix}1.52&-0.35&-0.36\\-0.35&0.23&-0.09\\-0.36&-0.09&0.34\end{pmatrix} \begin{pmatrix}1\\2\\2 \end{pmatrix} = 0.24\)

\(\hat{s.e.}(\hat{\mu}_0) = \sqrt{0.24 \times 2.5855} = 0.7877\)

\(1.16 \pm t_{0.025}(3) \hat{s.e.}(\hat{\mu}_0) = (-1.3449,3.6649)\)

round(qt(0.975,3),2)
3.18

3.

혈압이 체중과 성별에 따라 어떻게 달라지는가에 대한 모형을 적합하려고 한다. 데이터는 아래와 같을 때, 다음 물음에 답하여라.

1 2 3 4 5 6 7 8 9 10
혈압 120 130 130 155 149 150 160 125 135 140
체중 70 60 88 101 80 98 90 77 65 70
성별

(1)

혈압을 예측하기 위하여 교호작용을 포함하는 중회귀모형을 정의하시오.(성별의 경우 남자=1)

answer

\(y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \beta_3x_{i1}x_{i2} + \epsilon_i, \epsilon_i, i=1,\dots,10, \epsilon_i \sim_{i.i.d.}N(0,\sigma^2)\)

\(x_1\) : 체중, \(y\): 혈압

\(x_2\): 성별, \(x_2 = \begin{cases}1 & \text{남자}\\0 & \text{여자}\end{cases}\)

(2)

위의 모형을 행렬 형태로 표현하시오.(\(X,\mathbf{y,\beta,\epsilon}\)을 정확하게 표현)

answer

\(\mathbf{y} = X\mathbf{\beta + \epsilon}, \mathbf{\epsilon} \sim N(0,I_n\sigma^2)\)

\(\mathbf{y} = \begin{pmatrix}120\\130\\130\\155\\149\\150\\160\\125\\135\\140\end{pmatrix}, X = \begin{pmatrix}1& 70&1&70\\1&60&0&0\\1&88&1&88\\1&101&0&0\\1&80&0&0\\1&98&1&98\\1&90&0&0\\1&77&1&77\\1&65&0&0\\1&70&0&0 \end{pmatrix}, \mathbf{\beta} = \begin{pmatrix}\beta_0\\ \beta_1 \\ \beta_2 \end{pmatrix}, \mathbf{\epsilon} = \begin{pmatrix}\epsilon_1 \\ \epsilon_2\\ \epsilon_3\\ \epsilon_4\\ \epsilon_5\\ \epsilon_6\\ \epsilon_7\\ \epsilon_8\\ \epsilon_9\\ \epsilon_{10} \end{pmatrix}\)

(3)

위 모형의 적합 결과가 다음과 같다고 하자. 빈 칸을 채워 넣으시오. 마지막 칸에는 개별회귀계수에 대한 유의성검정을 위한 가설과, 검정결과(기각, 기각못함)를 적으시오.(풀이 있어야 함) 그리고 분산분석표를 이용하여 회귀모형의 유의성 검정을 하시오.(유의수준 \(\alpha = 0.05\))

answer

\[\text{추정}\]

Estimate Std.Error t value 검정결과
절편\(\beta_0\) \(\hat{\beta}_0\)=70.681 10.779 6.557 기각
체중\(\beta_1\) \(\hat{\beta}_1\)=0.988 0.1461 6.763 기각
성별\(\beta_2\) \(\hat{\beta}_2\)=-32.435 15.830 -2.049 기각못함
교호작용\(\beta_3\) \(\hat{\beta}_3\)=0.138 0.197 0.702 기각못함

\(t_0 = \frac{\hat{\beta}_i}{\hat{s.e.}(\hat{\beta}_i)}\), 기각역 \(|t_0| > t_{\alpha/2}(n-p-1) = t_{0.025}(6) = 2.45\)

\(H_0: \beta_i = 0, H_1: \beta_i \neq 0\)

round(qt(0.975,6),2)
2.45

\[\text{분산분석표}\]

요인 제곱합(SS) 자유도(df) 평균제곱(MS) \(F_0\)
회귀 1578.14 3 526.0467 42.5031
잔차 74.26 6 12.3767
1652.4 9

\(H_0 : \beta_1 = \beta_2 = \beta_3 = 0 \text{ vs. } H_1 \text{ not } H_0\)

\(F_0 > F_{\alpha}(p,n-p-1) = F_{0.05}(3,6) = 4.76\)

이므로 \(H_0\)기각 가능, 즉 유의수준 0.05에서 회귀직선 유의

(4)

(3)의 결과를 보고, 결정계수(\(R^2\)) 와 수정된 결정계수(\(R^2_{sdj}\)) 구하시오.

answer

\(R^2 = \frac{SSR}{SST} = 0.9551, R^2_{adj} = 1-\frac{SSE/(n-p-1)}{SST/(n-1)} = 0.9326\)

round(1578.14/1652.4,4)
0.9551
round(1-(74.26/6)/(1652.4/9),4)
0.9326

(5)

(3)번의 결과를 보고 모형 적합 결과를 설명하여라.(각 회귀계수의 의미와 유의성 검정 결과)

answer

\(E(y|\text{남성}) = \beta_0 + \beta_1 x_1+\beta_2+\beta_3x_1 = (\beta_0+\beta_2) + (\beta_1 + \beta_3)x_1\)

\(E(y|\text{여성}) = \beta_0 + \beta_1x_1\)

\(\hat{\beta}_2\): 유의하지 않음: 남성과 여성의 절편 차이 없음

\(\hat{\beta}_3\): 유의하지 않음: 남성과 여성의 기울기 차이 없음

answer

(6)

이번에는 교호작용을 제외한 모형을 적합해 보았다. 모형을 정의하여라.

answer

\(y_i = \beta_0 + \beta_1 x_{1i} + \beta_2 x_{2i} + \epsilon_i , i=1,\dots, 10, \epsilon_i \sim N(0,\sigma^2)\)

(7)

(7)번의 결과가 다음과 같을 때, 빈 칸을 채우고 적합 결과에 대해 설명하여라. (3)번 참고.

answer

Estimate Std.Error t value 검정결과
절편 65.137 7.059 9.227 기각
체중 1.064 0.094 11.264 기각
성별 -21.482 2.508 -8.565 기각

\(H_0: \beta_i = 0 \text{ vs. } H_1 : \beta_i \neq 0, i=1,2,3\)

기각역: \(|t_0| > t_{\alpha/2}(n-p-1) = t_{0.025}(7) = 2.36\)

\(E(y|\text{남성}) = \beta_0 + \beta_1 x_1 + \beta_2 = \beta_0 + \beta_2 + \beta_1 x_1\)

\(E(y|\text{여성}) = \beta_0 + \beta_1x_1\)

\(H_0:\beta_2\neq 0\)을 기각할 수 있으므로, 성별에 따른 평균 혈압이 다르다고 할 수 있다.

round(qt(0.975,7),2)
2.36
y <- c(120,130,130,155,149,150,160,125,135,140) # 혈압
x1 <- c(70,60,88,101,80,98,90,77,65,70) # 체중
x2 <- c(1,0,1,0,0,1,0,1,0,0) # 성별, 남, 여, 남, 여, 여, 남, 여, 남, 여, 여
df <- data.frame(y,x1,x2)
anova(lm(y~x1+x2,df))
A anova: 3 × 5
Df Sum Sq Mean Sq F value Pr(>F)
<int> <dbl> <dbl> <dbl> <dbl>
x1 1 729.9696 729.96957 27.92185 0.001142928
x2 1 739.4272 739.42724 28.28361 0.001101377
Residuals 7 183.0032 26.14331 NA NA

4.

중학교 2학년 학생 중에서 15명을 임의로 추출하여 각 학생의 약력(\(kg:x_1\)), 신장(\(cm:x_2\)), 체중(\(kg:x_3\))과 원반던지기에서 던진 거리(m)를 측정하였다. \(x_1,x_2,x_3\)를 모두 사용하여 \(y\)에 대한 중회귀모형을 적합시킨 후 회귀진단을 통해 다음의 결과를 얻었다. 이상치, 지렛대점, 영향을 크게 주는 측정값이 어떤 것인가를 판정하시오.

\(\epsilon_i\) \(r_i\) \(r^*_i\) diffit covratio cook.d \(h_{ii}\)
1 0.3190 0.1547 0.1476 0.0804 1.8818 0.0018 0.2287
2 3.8022 1.9823 2.3575 1.6656 0.3746 0.4904 0.3329
3 -2.8042 -1.4125 -1.4885 -0.9407 0.9201 0.1992 0.2854
4 -0.5070 -0.2580 -0.2468 -0.1616 2.0414 0.0071 0.3000
5 1.2883 0.6588 0.6410 0.4264 1.7978 0.0480 0.3067
6 0.7918 0.4639 0.4467 0.4221 2.5609 0.0480 0.4717
7 -1.3187 -0.6171 -0.5989 -0.2731 1.5360 0.0198 0.1721
8 0.0080 0.0040 0.0038 0.0022 1.9843 0.0000 0.2622
9 -0.7848 -0.4366 -0.4199 -0.3530 2.3302 0.0337 0.4141
10 0.0298 0.0141 0.0134 0.0064 1.7932 0.0000 0.1836
11 -3.0805 -1.3628 -1.4252 -0.4014 0.7542 0.0368 0.0735
12 -0.4829 -0.2259 -0.2159 -0.0981 1.7337 0.0026 0.1711
13 2.7167 1.2862 1.3305 0.6467 0.9431 0.0977 0.1911
14 -2.8386 -1.3880 -1.4571 -0.8226 0.8938 0.1535 0.2417
15 2.8609 1.5289 1.6427 1.2458 0.8869 0.3361 0.3651

answer

  1. leverage point

\(h_{ii} > 2\bar{n}\) 또는 \(3\bar{n}\)

\(\bar{h} = \frac{p+1}{n} = \frac{3+1}{15} = 0.267\)

\(2\bar{h} = 0.53, 3\bar{h} = 0.8\) .없음

  1. 이상치

\(|r^*_i| \ge t_{\alpha/2}(n-p-1) = t_{0.05/2}(15-3-2) = 2.23\) 2번 관측값

round(qt(0.975,10),2)
2.23
  1. 영향점

\(|Diffs(i) \ge 2\sqrt{\frac{p+1}{n-p-1}} = 1.206 \to\) 2,15번이 영향점

\(|D(i) \ge F_{0.5}(p+1,n-p-1) = F_{0.5}(4,11) = 0.96\)

\(|CovRatio(i) -1| \ge 3 \frac{p+1}{n} = 0.8\)