Advanced Regression Analysis Mid Term

Advanced Regression Analysis
Author

SEOYEON CHOI

Published

February 22, 2023

중간고사

1.

원점을 지나는 회귀모형은 다음과 같이 정의할 수 있다.

\[y_i = \beta x_i + \epsilon_i, \epsilon_i \sim_{i.i.d.} n(0,\sigma^2), i=1,\dots, n\]

(1)

\(\beta\)에 대한 최소제곱추정량(\(LSE\)) \(\hat{\beta}\)을 구하시오

answer

\(\hat{\beta} = argmin_{\beta \in R} S = \sum^n_{i=1} (y_i - \beta x_i)^2 \to \frac{\partial S}{\partial \beta}|_{\beta = \hat{\beta}} = 0\)

\(\frac{\partial S}{\partial \beta} = \sum^n_{i=1} (-2x_i)(y_i - \beta x_i) \to \sum^n_{i=1} x_i(y_i - \hat{\beta}x_i) = 0 \to \hat{\beta} = \frac{\sum^n_{i=1} x_iy_i}{\sum^n_{i=1} x^2_i}\)

(2)

\(E(\hat{\beta})\)을 구하시오

answer

\(\hat{\beta} = \frac{\sum^n_{i=1} x_i y_i}{\sum^n_{i=1} x^2_i} = \sum^n_{i=1} \frac{x_i}{\sum^n_{j=1} s^2_j} y_i\)

\(\to E(\hat{\beta})= \sum^n_{i=1} \frac{x_i}{\sum^n_{i=1} x^2_j} E(y_i) = \sum^n_{i=1}\frac{x_i}{\sum^n_{j=1} x^2_j} \beta x_i = \beta\frac{\sum^n_{i=1} x^2_{i=1} x^2_i}{\sum^n_{i=1} x^2_i} = \beta\)

(3)

\(Var(\hat{\beta})\)을 구하시오

answer

\(Var(\hat{\beta}) = \sum^n_{i=1} \frac{x^2_i}{(\sum^n_{j=1} x^2_j)^2} Var(y_i) = \sum^n_{i=1} \frac{x^2_i}{(\sum^n_{j=1} x^2_j)^2} \sigma^2 = \sigma^2 \frac{\sum^n_{i=1} x^2_i}{(\sum^n_{i=1} x^2_i)^2} = \frac{\sigma^2}{\sum^n_{i=1} x^2_i}\)

(4)

\(\hat{\beta}\)의 표준오차를 구하시오.

answer

\(s.e.(\hat{\beta}) = \sqrt{Var(\hat{\beta})} = \frac{\sigma}{\sqrt{\sum^n_{i=1}x^2_i}}\)

2.

어느 보험회사에서 사내평가점수(\(x\))가 영업실적(\(y\))에 어떠한 영향을 미치는지 알아보기 위하여 \(11\)명의 직원을 대상으로 평가점수(\(x_i\), 단위 : 점)와 영업실적(\(y_i\), 단위 : 백만원)을 조사하였다. 이 검사에 대한 관측값을 \((x_i,y_i), i = 1,2,...,12\) 이라고 하자. 1번에서 구한 원점을 지나는 회귀 모형을 이용하여 두 변수 사이의 관계를 확인하고자 한다. 아래의 정보를 이용하여 다음 물음에 답하시오.

\[\sum^n_{i=1} x_i = 297, \sum^n_{i=1} y_i = 583, \sum^n_{i=1} x^2_i = 9103, \sum^n_{i=1} y^2_i = 36961, \sum^n_{i=1} x_i y_i = 18207\]

(1)

최소제곱법에 의한 회귀직선을 적합시키고, 결과를 해석하시오.

answer

\(\hat{\beta} = \frac{\sum^n_{i=1} x_i y_i}{\sum^n_{i=1} x^2_i} = \frac{18207}{9103} = 2\)

\(y = 2x\)

사내평가점수가 1점 올라갈 때마다 영업실적이 2백만원 증가한다.

(2)

분산분석표를 작성하고, 유의수준 \(\alpha=0.05\)하에서, 회귀직선에 대한 유의성 검정을 수행하시오.

answer

\(SST = \sum^n_{i=1} y^2_i = 36961\)

\(SSR = \sum^n_{i=1} \hat{y}^2_i = (\beta x)^2= \frac{(\sum^n_{i=1} x_i y_i)^2}{\sum^n_{i=1} x^2_{i}} = \frac{(18207)^2}{9103} = 36416\)

분산분석표

요인 제곱합(SS) 자유도(df) 평균제곱(MS) \(F_0\)
회귀 36416 1 36416 669.01
잔차 545 10 54.5
36961 11

- 가설 : \(H_0 : \beta = 0 \text{ vs. } H_1 : \beta = 0\)

- 기각역 : \(F_0 > F_{0.01}(1,10) = 4.96\)

- 결론: \(F_0\) 값이 기각역에 속하므로 귀무가설을 기각할 수 있다. 즉 유의수준 \(5\)%에서 회귀직선이 유의하다고 할 수 있다.

round(qf(0.95,1,10),2)
4.96

(3)

결정계수를 구하시오

answer

\(R^2 = \frac{SSR}{SST} = \frac{36416}{36961} = 0.9865\)

(4)

\(\beta\)에 대한 \(95\)% 신뢰구간을 구하여라

answer

\(\hat{s.e.}(\hat{\beta}) = \sqrt{\frac{MSE}{\sum^n_{i=1} x^2_i}} = \sqrt{\frac{54.5}{9103}} = 0.077\)

\(95\)% 신뢰구간: \(\hat{\beta} \pm t_{0.05/2}(10) \times \hat{s.e.}(\hat{\beta}) = 2 \pm 2.23 \times 0.077 = (1.818, 2.172)\)

round(qt(0.975,10),2)
2.23

3.

비료의 투여량에 따른 감자의 생산량의 변화를 측정하기 위해 10개의 동일한 면적에 투여한 비료의 양(kg)과 생산된 감자의 양(kg)이 다음 표와 같다

비료(x) 1 1 2 2 3 3 4 4 5 5
감자(y) 22 19 25 27 31 34 31 29 37 35
\(\hat{y}_i\) 20.5 26 32.5 30 36
\(y_i - \hat{y}_i\) 1.5 -1.5 -1 1 -1.5 1.5 1 -1 1 -1

\(\sum^n_{i=1} x_i = 30, \sum^n_{i=1} y_i = 290, \sum^n_{i=1} x^2_i = 110, \sum^n_{i=1} y^2_i = 8712, \sum^n_{i=1} x_i y_i = 940\)

(1)

단순선형 회귀모형을 쓰고, 오차항에 대한 가정을 적으시오

answer

\(y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \epsilon_i \sim_{i.i.d.} N(0, \sigma^2) , i=1,2,\dots, 10\)

(2)

투입된 비료의 양과 감자의 수확량에 대한 회귀선을 구하시오

answer

\(S_{(xx)} = \sum^n_{i=1} x^2_i - n(\bar{x})^2 = 110 - 10 \times 3^2 = 20\)

\(S_{(yy)} = \sum^n_{i=1} y^2_i - n(\bar{y})^2 = 8712-10 \times 29^2 = 302\)

\(S_{(xy)} = \sum^n_{i=1} x_i y_i - n(\bar{x})(\bar{y}) = 940-10 \times 3 \times 29 = 70\)

\(\to \hat{\beta_1} = \frac{S_{(xy)}}{S_{(xy)}} = \frac{70}{20} = 3.5, \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} = 29-3.5 \times 3 = 18.5\)

(3)

분산분석표를 작성하고, 유의수준 α = 0.05에서, 회귀직선에 대한 유의성 검정을 수행하시오.

answer

\(SSR = \frac{S^2_{(xy)}}{S_{(xx)}} = \frac{70^2}{20} = 245\)

\(SSE = SST - SSR = 302 - 245 = 57\)

요인 제곱합(SS). 자유도(df) 평균제곱(MS) \(F_0\)
회귀 245 1 245 34.39
잔차 57 8 7.125
302

- 가설 : \(H_0 : \beta_1 = 0 \text{ vs. } H_1 : \beta_1 = 0\)

- 기각역 : \(F_0 > F_{\alpha}(1,8) = 5.32\)

- 결론: \(F_0\)값이 기각역에 속하므로 귀무가설을 기각할 수 있다. 즉 유의수준 \(5\)%에서 회귀직선이 유의하다고 할 수 있다.

round(qf(0.95,1,8),2)
5.32

(4)

오차항의 분산 \(\sigma^2\)에 대한 추정치를 구하여라

answer

\(\hat{\sigma}^2 = MSE = 7.125\)

(5)

표본상관계수를 구하시오.

answer

\(r = \frac{S_{(xy)}}{\sqrt{S_{(xx)}S_{(yy)}}} = \frac{70}{\sqrt{20 \times 302}} = 0.90\)

(6)

결정계수를 구하고, 결정계수의 의미를 설명하시오

answer

\(R^2 = \frac{SSR}{SST} = \frac{245}{302} = 0.81\)

회귀모형이 반응변수의 총변동의 \(81\)%를 설명하고 있다.

(7)

다음의 가설검정을 유의수준 \(\alpha = 0.05\)에서 수행하시오.

\[H_0 : \beta_1 = 2 \text{ vs. } H_1 : \beta_1 >2\]

answer

- 검정통계량 : \(T = \frac{\hat{\beta}_1 - \beta^0_1}{\hat{s.e.} (\hat{\beta}_1)} = \frac{\hat{\beta}_1 - 2}{\hat{s.e.}(\hat{\beta}_1)} \sim_{H_0} t(8)\)

- \(\hat{s.e.}(\hat{\beta}_1) = \sqrt{\frac{MSE}{S_{(xx)}}} = \sqrt{\frac{7.125}{20}} = 0.597\)

- 검정통계량 관측값: \(t_0 = \frac{3.5-2}{0.597} = 2.513\)

- 기각역 : \(t_0 > t_{0.05}(8) = 1.86\)

- 결론 : \(t_0\)값이 기각역에 속하므로 귀무가설을 기각할 수 있다. 즉 유의수준 \(5\)%에서 \(\beta_1\)\(2\)보다 크다고 할 수 있다.

round(qt(0.95,8),2) # 단측검정
1.86

(8)

\(3.5\)kg의 비료를 사용했을 때 평균 감자 수확량과 하나의 개별 \(y\)값의 \(90\)% 신뢰구간을 각각 구하시오

answer

- \(\hat{\mu}_0 = \hat{y}_0 = 18.5 + 3.5 x = 18.5 + 3.5 \times 3.5 = 30.75(kg)\)

- \(\hat{s.e.}(E(\hat{y|x = 3.5})) = \sqrt{(\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{(xx)}})\hat{\sigma}^2} = \sqrt{(\frac{1}{10} + \frac{(3.5-3)^2}{20}) \times 7.125} = 0.895\)

- \(\hat{s.e.}(\hat{y}_0) = \sqrt{(1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{(xx)}})\hat{\sigma^2}} = \sqrt{(1 + \frac{1}{10} + \frac{(3.5-3)^2}{20}) \times 7.125} = 2.815\)

- 평균감자수확량의 \(90\)% 신뢰구간

\[\hat{\mu}_0 \pm t_{0.1/2}(8)\hat{s.e.}(E(\hat{y|x = 3.5})) = 30.75 \pm 1.86 \times 0.895 = (29.085, 32.415)\]

- 개별 감자수확량의 \(90\)% 신뢰구간

\[\hat{\mu}_0 \pm t_{0.1/2})(8) \hat{s.e.}(\hat{y}_0) = 30.75 \pm 1.86 \times 2.815 = (25.514, 35.986)\]

round(qt(0.95,8),2)
1.86

4.

3번 문제에 대하여 선형회귀모형이 타당한가를 유의수준 \(\alpha = 0.05\)를 사용하여 적합결여검정을 수행하려고 한다. 다음 물음에 답하시오

(1)

적합결여검정을 수행하기 위한 가설을 적으시오.

answer

\(H_0 : E(y|x) = \beta_0 + \beta_1 x \text{ vs. } H_1 : E(y|x) \neq \beta_0 + \beta_1 x\)

(2)

가설검정을 위한 검정통계량은 무엇인가? 귀무가설이 사실이라고 가정할 때 검정통계량의 분포는 무엇인가?(증명 필요없음)

answer

\(F = \frac{SSLF/(k-2)}{SSPE/(n-k)} \sim_{H_0}, F(k-2,n-k)\)

- \(SSPE = \sum^k_{i=1} \sum^{n_i}_{j=1} (y_{ij} - \bar{y}_{i} )^2\)

- \(SSLF = \sum^k_{i=1}n_i (\hat{y_i} - \bar{y}_i)^2 = SSE - SSPE\)

- \(\bar{y}_i = \sum^{n_i}_{j=1} y_{ij}/n_i\)

(3)

(1)에 대한 가설 검정을 수행하시오

answer

- \(SSPE = (1.5^2 + \dots + (-1)^2) = 15\)

- \(SSLF = SSE - SSPE = 57-15=42\)

- 검정통계량의 관측값 : \(F_0 = \frac{42/3}{15/5} = \frac{14}{3} = 4.67\)

  • $ k-2 = 5-2 = 3, n-k = 10-5 = 5$

- 기각역 : \(F_0 > F_{0.05}(3,5) = 5.41\)

- 결론: 검정통계량의 관측값이 기각역에 속하지 않기 떄문에 귀무가설을 기각할 수 없다. 즉, 유의수준 \(5\)%에서 회귀모형은 적절하지 않다고 할 수 있다.

round(qf(0.95,3,5),2)
5.41

5.

다음의 직선회귀모형

\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, i=1,2,\dots, n\]

\[\epsilon_i \sim N(0,kx_i),(k:\text{ 상수 } , \epsilon_i : \text{ 서로 독립})\]

에서 가중회귀직선을 구하려고 한다. 다음 물음에 답하여라

(1)

가중회귀최소추정량(\(WLSE\))을 구하기 위한 가중오차제곱합(\(Q\))를 정의하여라.

answer

\(Q = \sum^n_{i=1} w_i \{ y_i - (\beta_0 + \beta_1 x_i) \}^2\)

Quadratic Form

(2)

가중오차제곱합을 가장 작게 하는 WLSE를 구하여라.

answer

가중최소제곱추정량(WLSE) : \((\hat{\beta}_0,\hat{\beta}_1) = argmin_{\beta_0,\beta_1 \in R} \sum^n_{i=1}w_i \{ y_i - (\beta_0 + \beta_1 x_i)\}^2\)

\(\hat{\beta}_1 = \frac{\sum w_i (x_i - \bar{x}_w)(y_i - \bar{y}_w)}{\sum w_i(x_i - \bar{x}_w)^2}\)

\(\hat{\beta}_0 = \bar{y}_w - \hat{\beta_1} \bar{x}_w\)

단, \(\bar{x}_w = \frac{\sum w_i x_i}{\sum w_i}, \bar{y}_w = \frac{\sum w_i y_i}{\sum w_i}\)