Review: Self-Consistency: A Fundamental Concept in Statistics(3)

Author

SEOYEON CHOI

Published

February 28, 2024

3. Regression and Principal Variables

For jointly distributed random vectors \(X_1\) and \(X_2\), the conditional expectation \(E[X_2|X_1]\) is called the regression of \(X_2\) on \(X_1\). Not surprisingly, there are close connections to self-consistency.

결합확률벡터 x_1,x_2에 대해 조건부 기대값 E(x_2|x_1)은 x_1에서 x_2의 regression이라 부른다. 이는 self-consistency와 연관성이 있다.

In a classical regression setup, let \(X_1\) denote an \(m\)-variate random vector, \(f(\dot)\) a function from \(\mathbb{R}^m\) to \(\mathbb{R}^k\), and define \(X_2 = f(X_1) + \epsilon\), where \(\epsilon\) is a \(k\)-variate random vector, independant of \(X_1\), with \(\cal{E}\) \([\epsilon] = 0\).

x_2 f(x_1)+epsilon을 정의할때, 고전적인 회귀 설정에서 x_1을 m변량 확률 벡터라고 하고, f()를 m변량~k변량 실수 집합의 함수라고하자.여기서 x_1에 대해 독립인 epsilon의 기댓값은 0이고, k변량 확률 벡터이다.

Then \(\cal{E}\) \([X_2 | f(X_1)] = f(X_1)\); that is, \(f(X_1)\) is self-consistent for \(X_2\). The mean \(f(X_1) =\) \(\cal{E}\) \([X_2]\) is a special case.

그렇다면 E[x_2|f(x_1)]은 f(x_1)과 같고, 즉 f(x_1)은 x_2에 대해 self-consistent 하다. f(x_1)의 평균이 E(x_2)와 같다는 것은 특별한 경우이다.

However, in this section we will be interested in the problem of approximating a \(p\)-variate random vector \(X\) by a self consistent \(Y\), where some \(q\) of the variables are replaced by their conditional means, as illustrated by our firrst theorem.

하지만 이 섹션에서는 self consistent한 Y가 p변량 확률 벡터 X에 근사하는 문제에 관심을 갖고자 한다. Y는 우리 첫번째 이론에 의해 설명된 조건부 평균에 의해 어떤 q변량이 대체된다.

Theorem 3.1. Suppose the \(p\)-variate random vector \(X\) is partitioned into \(q\) and \(p - q\) components as \(X = \begin{pmatrix} X_1 \\ X_2 \end{pmatrix}\).

이론 3.1 p변량 확률 벡터 X는 q와 p-q 로 구성되어 있는데, x_1,x_2로 구성되어 있다.

Then the random vector \(Y= \begin{bmatrix} Y_1 \\ Y_2 \end{bmatrix} = \begin{bmatrix} X_1 \\ E[X_2|X_1] \end{bmatrix}\) is self-consistent for \(X\).

그러면 확률 벡터 Y는 X에 대해 self-consistent하다. 이때, Y는 Y1,Y2로 구성되어 있고, 이는 각각 X1,E(X2|X1)과 같다.

Proof. \(\cal{E}\) \([X|Y] = \begin{pmatrix} E(X_1 | Y] \\ E(X_2 | Y] \end{pmatrix}\). Then \(\cal{E}\) \([X_1|Y] =\) \(\cal{E}\) \([X_1|X_1,\) \(\cal{E}\) \([X_2|X_1]] =\) \(\cal{E}\) \([X_1|X_1] =X_1 = Y_1\), and \(\cal{E}\) \([X_2|Y] =\) \(\cal{E}\) \([X_2|X_1] = Y_2\). Hence \(Y\) is self-consistent for \(X\).

Theorem 3.1 has an important interpretation in view of the aspect of distributions being “summarized by simpler ones,” according to the criterion of self-consistency.

정리 3.1은 self-consistenct 의 영역에 따라 더 단순한 분포로 요약되는 측면에서 중요한 해석이다.

It states that the \(q\) regressor variables \(X_1\), along with the regression of \(X_2\) on \(X_1\), are self-consistent for \(X\).

이 정리는 x1에 대한 x2의 regression에 따라 q개의 회귀변수를 가진 x1이 X에 대해 self-consistent하다는 것을 의미한다.

EXAMPLE 3.1. Suppose \(X\) is bivrate normal with mean \(0\) and covariance matrix \(\begin{pmatrix} 1 & \rho \\ \rho & 1 \end{pmatrix}\).

예제 3.1. X가 평균이 0이고, 공변량 행렬을 가진 이변량 정규 분포라고 가정하자.

Then \(Y = \begin{pmatrix} X_1 \\ E[X_2 | X_1] \end{pmatrix} = \begin{pmatrix} X_1 \\ \rho X_1 \end{pmatrix}\) is self-consistent for \(X\).

그럼 x1은 x1에 대해 self-consistent하고, x2는 x1에 대해 self-consistent 하다.

This is a bivarate normal but singular random vector, with \(MSE[Y;X] = 1- \rho^2\).

이것은 이변량 정규분포를 따르지만 singular 확률 벡터이다.

proof

\(MSE[Y;X] = 1- \rho^2\), \(Cov(X_1,X_2) = 1\)

2장에 따르면, \(MSE[Y;X] = E||X-Y||^2\)

\(= E||(X_1 - X_1)^2 + (X_2-\rho X_1)^2|| = E||(X_2 - \rho X_1)^2 || = 1- \rho^2\)

In regression, the partition of \(X\) into “independent” variavle \(X_1\) and “dependent” variables \(X_2\) is usually given by the setup of the analysis.

회귀에서 x를 독립변수 x1과 종속변수 x2로 나누는 것은 보통 분석의 설정에 의해 주어진다.

However, for given(fixed) \(q\), \(1\le q \le p-1\), one may ask for the subset of variables which in some sense to be defined, gives the best summary of the \(p\)-variate distribution.

하지만, q에 대해서 어떤 맥락에서 정의되는 변수들의 부분 집합은 p변량 분포를 최적으로 요약하는 법에 대해 의문이 있을 수 있다.

This problem has been studied by McCabe(1984), who called the “best” subset of \(q\) variables the principal variables of \(X\).

이 문제는 McCabe에 의해 연구되었고, 그는 x의 주변량을 q변량 최적의 부분집합으로 정의했다.

Suppose all conditional means of a subset of variables, given the remaining variables, are linear, as in the case of elliptical distributions.

변수들을 유지하면서 변수의 부분집합의 모든 조건부 평균을 가정할때, 이는 선형이고, 타원형 분포라고 가정할 것이다.

Let \(\Psi := Cov[X]\), and denote by \(P\) a permutation matrix of dimension \(p \times p\).

psi는 cov(x)이고, pxp 의 permutation 행렬로 보겠다.

permutation matrix

permutation matrix: 치환 행렬, 행을 서로 교환해줌

Set \(X^* = PX = \begin{pmatrix} X_1^* \\ X_2^* \end{pmatrix}\), where \(X^*\) has \(q\) components and \(X_2^*\) has \(p-q\) components.

x* 는 q개의 component를 가지고 있고, x2* 는 p-q개의 component를 가지고 있다. -> x* 는 q변량 이것은 x안 p변량에서 요약되어서 줄어든 값임!! 그러니까 x_2* 는 줄어든 변량의 개수만큼 가지고 있다는 말이 되네?

Partition the mean vector and the covariance matrix of \(X^*\) analogously1 as \(\cal{E}\) \([X^*] = \begin{bmatrix} \mu_1^* \\ \mu_2^* \end{bmatrix}, Cov[X^{*}] = \begin{bmatrix} \Psi^*_{11} & \Psi_{12}^* \\ \Psi^*_{21} & \Psi^*_{22} \end{bmatrix}\).

  • 1 유사하게

  • 평균 벡터와 공변량 벡터

    Then, assuming nonsingularity of \(\Psi\), \(\cal{E}\) \([X_2^* | X_1^*] = \mu_2^* + (\Psi^*_{21})(\Psi^*_{11})^{-1}(X_1^* -\mu^*_1)\), and the conditional variance formula (see the proof of Lemma 2.3) gives \(\cal{E}\) \([Cov(X_2^* | X_1^*)] = \Psi^*_{22} - \Psi^*_{21}(\Psi^*_{11})^{-1} \Psi^*_{12} =: \Psi^*_{22 \cdot 1}\).

    조건부 변수의 정의

    An intuitively reasonable optimality criterion is to choose \(P\) such that \(tr(\Psi^*_{22 \cdot 1})\) is as small as possible.

    This can be motivated as follows.

    If we set \(Y^* = \begin{bmatrix} Y^*_1 \\ Y^*_2 \end{bmatrix} = \begin{bmatrix} X^*_1 \\ E[X_2^* | X^*_1] \end{bmatrix}\), then \(Y^*\) is self-consistent for \(X^*\) and can be regarded as a good approximation to \(X^*\) if \(MSE(Y^*;X^*)\) is as small as possible.

    y* 를 위와 같이 정의한다면 y* 는 x* 에 대해 self-consistent 하고, 만약 mse값이 가능한한 작다면, y* 는 x* 에 대한 좋은 추정치로 여겨질 수 있다.

    Assuming linearity of the conditional mean of \(X^*_2\), given \(X_1^*\), and setting \(\cal{E}\) \([X^*]=0\) without loss of generality, we obtain \(\cal{E}\) \(||X^* - Y^* ||^2 = tr(\Psi^*) - tr(Cov(Y^*))\) (by Lemma 2.3) \(= tr(\Psi^*_{22}) - tr(\Psi^*_{21}(\Psi^*_{11})^{-1}\Psi^*_{12}) = tr(\Psi^*_{22 \cdot 1})\).

    E(x2* | x1* )의 선형성을 가정하고, x* 의 평균이 0이라고 설정하여 loss가 없도록 하면 MSE는 tr(psi22 1)이 됌

    Hence, for given \(q\), principal variables identify an optimal subset of \(q\) variables \(X_1^*\), which (along with the regression of \(X^*_2\) on \(X^*_1\)) defines a self-consistent approximation \(Y^* = \begin{pmatrix} X^*_1 \\ E[X^*_2 | X^*_1] \end{pmatrix}\) to \(X^*\).

    q가 주어졌을때, 주변량은 q개 변수 x1의 최적의 subset으로 식별할 수 있으며, 이는 y* 가 x* 에 대해 self-consistent한 근사치로 정의한다.

    Returning to the original order of variables, \(Y = P^{'} Y^*\) is then self-consistent for \(X\).

    결국 original order보면, y는 x에 대해 self-consistent 하다.

    Finding principal variables is computationally intensive because, for a \(p\)-dimensional random vector \(X\) and \(q\) principal variables, there are \(\begin{pmatrix} p\\q \end{pmatrix}\) ways to select \(q\) candidates.

    If the assumption of linearity of the conditional means is dropped, one may of course still search for the “best” partition of \(X\) into \(q\) of the original variables and \(p - q\) conditional means, according to the criterion of minimizing \(MSE(Y^*; X^*)\), but the problem becomes intractable without making further assumptions.”