값의 범위 (STAT-110) R, 상관(Correlation)의 정의와

값의 범위 (STAT-110) R, 상관(Correlation)의 정의와 1

상관 Correlation은 공분산의 표준화된 버전이라고 생각하면 된다.

정의상은 X와 Y에 대한 공분산을 X의 표준편차와 Y의 표준편차로 나눈 값이다.

그러나, 이 값은, X를 정규화하고, Y를 정규화한 변수에 대한 공분산과 동일한 값이 된다.

사실 위의 Cov(X-EX)/SD(X), (Y-EY)/SD(Y)에서 식을 공분산 성질에 의해 정리하면, 분모인 1/SD(X), 1/SD(Y)가 밖으로 빠지기 때문에 공분산 정의에 의한 식Cov(X, Y)/(SD(X)*SD(Y)의 분모와 동일해진다.

그리고 EX, EY는 정수이기 때문에 분산식에서는 0이 된다.

따라서 EX, EY가 어떠한 값이든 정수에 들어가면 Corr(X, Y) 값은 동일하다.

편의상 EX, EY로 centering 해줌.

분산, 공분산파 단위에 대한 해석이 어렵다.

그리고 값이 큰지 작은지에 대한 비교도 어렵다.

이것을 상관으로 변경하면 상관의 값은 -1과 1 사이가 되고 단위는 약분되어 없어진다.

상관계수가 -1에서 1 사이가 되는 것은 공분산의 성질을 이용해 구할 수 있다.

여기에서 X, Y는 평균 0, 분산 1로 정규화되어 있으므로, Var(X)= Var(Y)= 1이며, Cov(X, Y)= Corr(X, Y)와 같은 점에 주의하자.

Var ( X + Y ) = Cov ( X + Y , X + Y ) = Cov ( X , X ) + Cov ( X , Y ) + Cov ( Y , X ) + Cov ( Y , Y ) = Var ( X ) + Var ( Y ) + 2 Cov ( X , Y ) = Var ( X ) + Var ( Y ) + 2 Corr ( X , Y ) = 1 + 1 + 2 ρ > = 0

마찬가지로 Var (X-Y) = 2-2ο > = 0

분산은 모두 0보다 크거나 같기 때문에, -1 <= ο<= 1이 된다.

코드로 간단하게 확인해보자. 수작업으로 구할 수도 있고 R의 내장 함수를 이용해 구할 수도 있다.