본문 바로가기
[Public] 수학/기초통계

[기초통계] 공분산과 상관계수

by 차출발 2010. 6. 30.
반응형

우리는 보통 공분산 상관계수란 말을 많이 사용한다.

하지만 이게 정말로 뭔지 ??

잘 이해하지 못하거나 대충알았다면 항상 인터넷에 공분산이란 단어를 치고 있을 것이다.

이번에 제대로 이해해서 다시는 치는 일이 없도록 하자.




공분산과 상관계수


예를 들어서 이해하면 쉬울것 같다.

우리는 보통 평균과 분산의 개념을 알것이다.

영어 성적 (90 92 94 92) 이 있다고 할때

92의 평균 말그대로 평균이다. (90 + 92 + 94 + 92 =  368 / 4 = 92)

분산은 평균을 구하고 평균으로부터 퍼진 정도라고 하면 쉽게 이해를 할 수 있다.

평균이 92 점 이니

90은 -2만큼
92는 0만큼
94는 2만큼
92는 0만큼

이는 퍼져있는 정도로 떨어진 정도이니 음수가 나올수 있으니

보통 제곱처리해서 다시 root 를 쓰여주는 방법을 많이 쓴다.

그럼
(-2)^2 = 4
(0)^2 = 0
(2)^2 = 4
(0)^2 = 0
4 + 0 + 4 + 0 / 4 = 2
답은  √2   
이건 누구나 알 것이다.


방금까지는 하나의 변수를 가지고 했다.

그럼 영어성적에 수학성적까지 있다면 ?
영어(90 92 94 92)
수학(80 86 80 82)

이 두 변수가 서로간의 관계가 궁금할 것이다.

"영어를 잘하면 수학도 잘하나? " 이런 의문

한 마디로 이 두 변수 간의 변동을 공분산 Cov(x, y) 이라 한다.

공분산 값

Cov(X, Y)  > 0  X가 증가 할 때 Y도 증가한다.
Cov(X, Y)  < 0  X가 증가 할 때 Y는 감소한다. 
Cov(X, Y)  = 0  X 와 Y가 상관이 없다. (이를 독립이라고도 한다. 한 사건이 다른 사건에 영향을 주지 않고 하는 경우 많이 나옴)

공분산을 구하다 보면

공분산 값이 항상 일정하지 않기 때문에 우리는 비교할려면 계산도 해야되고 복잡하다. 

 -000000... <= Cor(x, y) <= 000000.... (예를 들면)


그래서 이를 표준화 시켜주는 작업으로 공분산에 표준편차로 나눠주면

값이 -1 <= Corr(x, y) <= 1 사이 범위로 좁혀지면서 우리는 수월하게 비교할 수가 있당.

이 작업 즉 공분산을 표준편차로 나눠주는게 상관계수 Corr(x, y)라 한다.

이제 확실이 공분산과 상관계수가 먼지 알고 가자.




PS : (확률통계님의 지적 드립니다^^)

저는 무조건 Covariance가 0이면 다 Independent 인줄 알았는데 잘못 알고 있었네요 ^^

Independent 이면 covariance 가 0이다. (O)

이 문장의 역인

Covariance가 0이면 Independent 이다.  (Gaussian Random variable 일 경우만 성립한다고 하네요 )


'[Public] 수학 > 기초통계' 카테고리의 다른 글

[기초통계]베이지안 통계 와 베이즈 정리  (0) 2010.06.30
[기초통계] 상관분석  (0) 2010.04.14
1. 평균  (0) 2009.12.29