round(qf(0.95,1,10),2)
중간고사
1.
원점을 지나는 회귀모형은 다음과 같이 정의할 수 있다.
\[y_i = \beta x_i + \epsilon_i, \epsilon_i \sim_{i.i.d.} n(0,\sigma^2), i=1,\dots, n\]
(1)
\(\beta\)에 대한 최소제곱추정량(\(LSE\)) \(\hat{\beta}\)을 구하시오
answer
\(\hat{\beta} = argmin_{\beta \in R} S = \sum^n_{i=1} (y_i - \beta x_i)^2 \to \frac{\partial S}{\partial \beta}|_{\beta = \hat{\beta}} = 0\)
\(\frac{\partial S}{\partial \beta} = \sum^n_{i=1} (-2x_i)(y_i - \beta x_i) \to \sum^n_{i=1} x_i(y_i - \hat{\beta}x_i) = 0 \to \hat{\beta} = \frac{\sum^n_{i=1} x_iy_i}{\sum^n_{i=1} x^2_i}\)
(2)
\(E(\hat{\beta})\)을 구하시오
answer
\(\hat{\beta} = \frac{\sum^n_{i=1} x_i y_i}{\sum^n_{i=1} x^2_i} = \sum^n_{i=1} \frac{x_i}{\sum^n_{j=1} s^2_j} y_i\)
\(\to E(\hat{\beta})= \sum^n_{i=1} \frac{x_i}{\sum^n_{i=1} x^2_j} E(y_i) = \sum^n_{i=1}\frac{x_i}{\sum^n_{j=1} x^2_j} \beta x_i = \beta\frac{\sum^n_{i=1} x^2_{i=1} x^2_i}{\sum^n_{i=1} x^2_i} = \beta\)
(3)
\(Var(\hat{\beta})\)을 구하시오
answer
\(Var(\hat{\beta}) = \sum^n_{i=1} \frac{x^2_i}{(\sum^n_{j=1} x^2_j)^2} Var(y_i) = \sum^n_{i=1} \frac{x^2_i}{(\sum^n_{j=1} x^2_j)^2} \sigma^2 = \sigma^2 \frac{\sum^n_{i=1} x^2_i}{(\sum^n_{i=1} x^2_i)^2} = \frac{\sigma^2}{\sum^n_{i=1} x^2_i}\)
(4)
\(\hat{\beta}\)의 표준오차를 구하시오.
answer
\(s.e.(\hat{\beta}) = \sqrt{Var(\hat{\beta})} = \frac{\sigma}{\sqrt{\sum^n_{i=1}x^2_i}}\)
2.
어느 보험회사에서 사내평가점수(\(x\))가 영업실적(\(y\))에 어떠한 영향을 미치는지 알아보기 위하여 \(11\)명의 직원을 대상으로 평가점수(\(x_i\), 단위 : 점)와 영업실적(\(y_i\), 단위 : 백만원)을 조사하였다. 이 검사에 대한 관측값을 \((x_i,y_i), i = 1,2,...,12\) 이라고 하자. 1번에서 구한 원점을 지나는 회귀 모형을 이용하여 두 변수 사이의 관계를 확인하고자 한다. 아래의 정보를 이용하여 다음 물음에 답하시오.
\[\sum^n_{i=1} x_i = 297, \sum^n_{i=1} y_i = 583, \sum^n_{i=1} x^2_i = 9103, \sum^n_{i=1} y^2_i = 36961, \sum^n_{i=1} x_i y_i = 18207\]
(1)
최소제곱법에 의한 회귀직선을 적합시키고, 결과를 해석하시오.
answer
\(\hat{\beta} = \frac{\sum^n_{i=1} x_i y_i}{\sum^n_{i=1} x^2_i} = \frac{18207}{9103} = 2\)
\(y = 2x\)
사내평가점수가 1점 올라갈 때마다 영업실적이 2백만원 증가한다.
(2)
분산분석표를 작성하고, 유의수준 \(\alpha=0.05\)하에서, 회귀직선에 대한 유의성 검정을 수행하시오.
answer
\(SST = \sum^n_{i=1} y^2_i = 36961\)
\(SSR = \sum^n_{i=1} \hat{y}^2_i = (\beta x)^2= \frac{(\sum^n_{i=1} x_i y_i)^2}{\sum^n_{i=1} x^2_{i}} = \frac{(18207)^2}{9103} = 36416\)
분산분석표
요인 | 제곱합(SS) | 자유도(df) | 평균제곱(MS) | \(F_0\) |
---|---|---|---|---|
회귀 | 36416 | 1 | 36416 | 669.01 |
잔차 | 545 | 10 | 54.5 | |
계 | 36961 | 11 |
-
가설 : \(H_0 : \beta = 0 \text{ vs. } H_1 : \beta = 0\)
-
기각역 : \(F_0 > F_{0.01}(1,10) = 4.96\)
-
결론: \(F_0\) 값이 기각역에 속하므로 귀무가설을 기각할 수 있다. 즉 유의수준 \(5\)%에서 회귀직선이 유의하다고 할 수 있다.
(3)
결정계수를 구하시오
answer
\(R^2 = \frac{SSR}{SST} = \frac{36416}{36961} = 0.9865\)
(4)
\(\beta\)에 대한 \(95\)% 신뢰구간을 구하여라
answer
\(\hat{s.e.}(\hat{\beta}) = \sqrt{\frac{MSE}{\sum^n_{i=1} x^2_i}} = \sqrt{\frac{54.5}{9103}} = 0.077\)
\(95\)% 신뢰구간: \(\hat{\beta} \pm t_{0.05/2}(10) \times \hat{s.e.}(\hat{\beta}) = 2 \pm 2.23 \times 0.077 = (1.818, 2.172)\)
round(qt(0.975,10),2)
3.
비료의 투여량에 따른 감자의 생산량의 변화를 측정하기 위해 10개의 동일한 면적에 투여한 비료의 양(kg)과 생산된 감자의 양(kg)이 다음 표와 같다
비료(x) | 1 1 | 2 2 | 3 3 | 4 4 | 5 5 |
---|---|---|---|---|---|
감자(y) | 22 19 | 25 27 | 31 34 | 31 29 | 37 35 |
\(\hat{y}_i\) | 20.5 | 26 | 32.5 | 30 | 36 |
\(y_i - \hat{y}_i\) | 1.5 -1.5 | -1 1 | -1.5 1.5 | 1 -1 | 1 -1 |
\(\sum^n_{i=1} x_i = 30, \sum^n_{i=1} y_i = 290, \sum^n_{i=1} x^2_i = 110, \sum^n_{i=1} y^2_i = 8712, \sum^n_{i=1} x_i y_i = 940\)
(1)
단순선형 회귀모형을 쓰고, 오차항에 대한 가정을 적으시오
answer
\(y_i = \beta_0 + \beta_1 x_i + \epsilon_i, \epsilon_i \sim_{i.i.d.} N(0, \sigma^2) , i=1,2,\dots, 10\)
(2)
투입된 비료의 양과 감자의 수확량에 대한 회귀선을 구하시오
answer
\(S_{(xx)} = \sum^n_{i=1} x^2_i - n(\bar{x})^2 = 110 - 10 \times 3^2 = 20\)
\(S_{(yy)} = \sum^n_{i=1} y^2_i - n(\bar{y})^2 = 8712-10 \times 29^2 = 302\)
\(S_{(xy)} = \sum^n_{i=1} x_i y_i - n(\bar{x})(\bar{y}) = 940-10 \times 3 \times 29 = 70\)
\(\to \hat{\beta_1} = \frac{S_{(xy)}}{S_{(xy)}} = \frac{70}{20} = 3.5, \hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x} = 29-3.5 \times 3 = 18.5\)
(3)
분산분석표를 작성하고, 유의수준 α = 0.05에서, 회귀직선에 대한 유의성 검정을 수행하시오.
answer
\(SSR = \frac{S^2_{(xy)}}{S_{(xx)}} = \frac{70^2}{20} = 245\)
\(SSE = SST - SSR = 302 - 245 = 57\)
요인 | 제곱합(SS). | 자유도(df) | 평균제곱(MS) | \(F_0\) |
---|---|---|---|---|
회귀 | 245 | 1 | 245 | 34.39 |
잔차 | 57 | 8 | 7.125 | |
계 | 302 |
-
가설 : \(H_0 : \beta_1 = 0 \text{ vs. } H_1 : \beta_1 = 0\)
-
기각역 : \(F_0 > F_{\alpha}(1,8) = 5.32\)
-
결론: \(F_0\)값이 기각역에 속하므로 귀무가설을 기각할 수 있다. 즉 유의수준 \(5\)%에서 회귀직선이 유의하다고 할 수 있다.
round(qf(0.95,1,8),2)
(4)
오차항의 분산 \(\sigma^2\)에 대한 추정치를 구하여라
answer
\(\hat{\sigma}^2 = MSE = 7.125\)
(5)
표본상관계수를 구하시오.
answer
\(r = \frac{S_{(xy)}}{\sqrt{S_{(xx)}S_{(yy)}}} = \frac{70}{\sqrt{20 \times 302}} = 0.90\)
(6)
결정계수를 구하고, 결정계수의 의미를 설명하시오
answer
\(R^2 = \frac{SSR}{SST} = \frac{245}{302} = 0.81\)
회귀모형이 반응변수의 총변동의 \(81\)%를 설명하고 있다.
(7)
다음의 가설검정을 유의수준 \(\alpha = 0.05\)에서 수행하시오.
\[H_0 : \beta_1 = 2 \text{ vs. } H_1 : \beta_1 >2\]
answer
-
검정통계량 : \(T = \frac{\hat{\beta}_1 - \beta^0_1}{\hat{s.e.} (\hat{\beta}_1)} = \frac{\hat{\beta}_1 - 2}{\hat{s.e.}(\hat{\beta}_1)} \sim_{H_0} t(8)\)
-
\(\hat{s.e.}(\hat{\beta}_1) = \sqrt{\frac{MSE}{S_{(xx)}}} = \sqrt{\frac{7.125}{20}} = 0.597\)
-
검정통계량 관측값: \(t_0 = \frac{3.5-2}{0.597} = 2.513\)
-
기각역 : \(t_0 > t_{0.05}(8) = 1.86\)
-
결론 : \(t_0\)값이 기각역에 속하므로 귀무가설을 기각할 수 있다. 즉 유의수준 \(5\)%에서 \(\beta_1\)이 \(2\)보다 크다고 할 수 있다.
round(qt(0.95,8),2) # 단측검정
(8)
\(3.5\)kg의 비료를 사용했을 때 평균 감자 수확량과 하나의 개별 \(y\)값의 \(90\)% 신뢰구간을 각각 구하시오
answer
-
\(\hat{\mu}_0 = \hat{y}_0 = 18.5 + 3.5 x = 18.5 + 3.5 \times 3.5 = 30.75(kg)\)
-
\(\hat{s.e.}(E(\hat{y|x = 3.5})) = \sqrt{(\frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{(xx)}})\hat{\sigma}^2} = \sqrt{(\frac{1}{10} + \frac{(3.5-3)^2}{20}) \times 7.125} = 0.895\)
-
\(\hat{s.e.}(\hat{y}_0) = \sqrt{(1 + \frac{1}{n} + \frac{(x_0 - \bar{x})^2}{S_{(xx)}})\hat{\sigma^2}} = \sqrt{(1 + \frac{1}{10} + \frac{(3.5-3)^2}{20}) \times 7.125} = 2.815\)
-
평균감자수확량의 \(90\)% 신뢰구간
\[\hat{\mu}_0 \pm t_{0.1/2}(8)\hat{s.e.}(E(\hat{y|x = 3.5})) = 30.75 \pm 1.86 \times 0.895 = (29.085, 32.415)\]
-
개별 감자수확량의 \(90\)% 신뢰구간
\[\hat{\mu}_0 \pm t_{0.1/2})(8) \hat{s.e.}(\hat{y}_0) = 30.75 \pm 1.86 \times 2.815 = (25.514, 35.986)\]
round(qt(0.95,8),2)
4.
3번 문제에 대하여 선형회귀모형이 타당한가를 유의수준 \(\alpha = 0.05\)를 사용하여 적합결여검정을 수행하려고 한다. 다음 물음에 답하시오
(1)
적합결여검정을 수행하기 위한 가설을 적으시오.
answer
\(H_0 : E(y|x) = \beta_0 + \beta_1 x \text{ vs. } H_1 : E(y|x) \neq \beta_0 + \beta_1 x\)
(2)
가설검정을 위한 검정통계량은 무엇인가? 귀무가설이 사실이라고 가정할 때 검정통계량의 분포는 무엇인가?(증명 필요없음)
answer
\(F = \frac{SSLF/(k-2)}{SSPE/(n-k)} \sim_{H_0}, F(k-2,n-k)\)
-
\(SSPE = \sum^k_{i=1} \sum^{n_i}_{j=1} (y_{ij} - \bar{y}_{i} )^2\)
-
\(SSLF = \sum^k_{i=1}n_i (\hat{y_i} - \bar{y}_i)^2 = SSE - SSPE\)
-
\(\bar{y}_i = \sum^{n_i}_{j=1} y_{ij}/n_i\)
(3)
(1)에 대한 가설 검정을 수행하시오
answer
-
\(SSPE = (1.5^2 + \dots + (-1)^2) = 15\)
-
\(SSLF = SSE - SSPE = 57-15=42\)
-
검정통계량의 관측값 : \(F_0 = \frac{42/3}{15/5} = \frac{14}{3} = 4.67\)
- $ k-2 = 5-2 = 3, n-k = 10-5 = 5$
-
기각역 : \(F_0 > F_{0.05}(3,5) = 5.41\)
-
결론: 검정통계량의 관측값이 기각역에 속하지 않기 떄문에 귀무가설을 기각할 수 없다. 즉, 유의수준 \(5\)%에서 회귀모형은 적절하지 않다고 할 수 있다.
round(qf(0.95,3,5),2)
5.
다음의 직선회귀모형
\[y_i = \beta_0 + \beta_1 x_i + \epsilon_i, i=1,2,\dots, n\]
\[\epsilon_i \sim N(0,kx_i),(k:\text{ 상수 } , \epsilon_i : \text{ 서로 독립})\]
에서 가중회귀직선을 구하려고 한다. 다음 물음에 답하여라
(1)
가중회귀최소추정량(\(WLSE\))을 구하기 위한 가중오차제곱합(\(Q\))를 정의하여라.
answer
\(Q = \sum^n_{i=1} w_i \{ y_i - (\beta_0 + \beta_1 x_i) \}^2\)
Quadratic Form
(2)
가중오차제곱합을 가장 작게 하는 WLSE를 구하여라.
answer
가중최소제곱추정량(WLSE) : \((\hat{\beta}_0,\hat{\beta}_1) = argmin_{\beta_0,\beta_1 \in R} \sum^n_{i=1}w_i \{ y_i - (\beta_0 + \beta_1 x_i)\}^2\)
\(\hat{\beta}_1 = \frac{\sum w_i (x_i - \bar{x}_w)(y_i - \bar{y}_w)}{\sum w_i(x_i - \bar{x}_w)^2}\)
\(\hat{\beta}_0 = \bar{y}_w - \hat{\beta_1} \bar{x}_w\)
단, \(\bar{x}_w = \frac{\sum w_i x_i}{\sum w_i}, \bar{y}_w = \frac{\sum w_i y_i}{\sum w_i}\)