'[Public] 수학/기초통계'에 해당되는 글 4건

  1. 2010.06.30 [기초통계] 공분산과 상관계수 (5)
2010.06.30 01:07

우리는 보통 공분산 상관계수란 말을 많이 사용한다.

하지만 이게 정말로 뭔지 ??

잘 이해하지 못하거나 대충알았다면 항상 인터넷에 공분산이란 단어를 치고 있을 것이다.

이번에 제대로 이해해서 다시는 치는 일이 없도록 하자.




공분산과 상관계수


예를 들어서 이해하면 쉬울것 같다.

우리는 보통 평균과 분산의 개념을 알것이다.

영어 성적 (90 92 94 92) 이 있다고 할때

92의 평균 말그대로 평균이다. (90 + 92 + 94 + 92 =  368 / 4 = 92)

분산은 평균을 구하고 평균으로부터 퍼진 정도라고 하면 쉽게 이해를 할 수 있다.

평균이 92 점 이니

90은 -2만큼
92는 0만큼
94는 2만큼
92는 0만큼

이는 퍼져있는 정도로 떨어진 정도이니 음수가 나올수 있으니

보통 제곱처리해서 다시 root 를 쓰여주는 방법을 많이 쓴다.

그럼
(-2)^2 = 4
(0)^2 = 0
(2)^2 = 4
(0)^2 = 0
4 + 0 + 4 + 0 / 4 = 2
답은  √2   
이건 누구나 알 것이다.


방금까지는 하나의 변수를 가지고 했다.

그럼 영어성적에 수학성적까지 있다면 ?
영어(90 92 94 92)
수학(80 86 80 82)

이 두 변수가 서로간의 관계가 궁금할 것이다.

"영어를 잘하면 수학도 잘하나? " 이런 의문

한 마디로 이 두 변수 간의 변동을 공분산 Cov(x, y) 이라 한다.

공분산 값

Cov(X, Y)  > 0  X가 증가 할 때 Y도 증가한다.
Cov(X, Y)  < 0  X가 증가 할 때 Y는 감소한다. 
Cov(X, Y)  = 0  X 와 Y가 상관이 없다. (이를 독립이라고도 한다. 한 사건이 다른 사건에 영향을 주지 않고 하는 경우 많이 나옴)

공분산을 구하다 보면

공분산 값이 항상 일정하지 않기 때문에 우리는 비교할려면 계산도 해야되고 복잡하다. 

 -000000... <= Cor(x, y) <= 000000.... (예를 들면)


그래서 이를 표준화 시켜주는 작업으로 공분산에 표준편차로 나눠주면

값이 -1 <= Corr(x, y) <= 1 사이 범위로 좁혀지면서 우리는 수월하게 비교할 수가 있당.

이 작업 즉 공분산을 표준편차로 나눠주는게 상관계수 Corr(x, y)라 한다.

이제 확실이 공분산과 상관계수가 먼지 알고 가자.




PS : (확률통계님의 지적 드립니다^^)

저는 무조건 Covariance가 0이면 다 Independent 인줄 알았는데 잘못 알고 있었네요 ^^

Independent 이면 covariance 가 0이다. (O)

이 문장의 역인

Covariance가 0이면 Independent 이다.  (Gaussian Random variable 일 경우만 성립한다고 하네요 )


'[Public] 수학 > 기초통계' 카테고리의 다른 글

[기초통계] 공분산과 상관계수  (5) 2010.06.30
[기초통계] 상관분석  (0) 2010.04.14
1. 평균  (0) 2009.12.29
Posted by 차출발 차출발

댓글을 달아 주세요

  1. 학생1 2012.04.14 21:00  댓글주소  수정/삭제  댓글쓰기

    좋은 글 보고갑니다^^

  2. 확률통계 2012.05.04 21:07  댓글주소  수정/삭제  댓글쓰기

    covariance가 0이라고 해서 꼭 independent한것은 아닌것으로 알고 있습니다. "independent하면 covariance가 0이다" 명제는 맞으나 그 역은 Gaussian random variable일 경우에 성립하는 것으로 알고 있습니다.

    • BlogIcon 차출발 차출발 2012.03.20 21:31 신고  댓글주소  수정/삭제

      저는 무조건 Covariance가 0이면 다 Independent 인줄 알았는데 잘못 알고 있었네요 ^^

      Independent 이면 covariance 가 0이다. (O)

      Covariance가 0이면 Independent 이다.
      (Gaussian Random variable 일 경우만 성립)

      좋은 정보 감사합니다 *^^*

  3. BlogIcon 이야기개박사 2013.02.26 13:16  댓글주소  수정/삭제  댓글쓰기

    위의 예에서 분산은 각 편차의 제곱의 평균이고,
    여기에 양의 제곱근 즉, 루트를 해주면 표준편차가 되는걸로 알고 있습니다만..
    따라서 분산은 단위를 나타내지 않고 모집단의 분포를 알수있는 산술치가 되는 것이고,
    평균과 표준편차는 단위를 나타낸는 것이죠.