본문 바로가기
[Public] 수학/기초통계

[기초통계] 상관분석

by 차출발 2010. 4. 14.
반응형

상관분석

 

  2010. 04. 14


 

일상 생활이나 학문 연구에서 둘 또는 그 이상의 변수들이 서로 관계를 가지고 변화할 때

그 관련성을 규명해야하는 경우가 많이 있다.


예를 들면 지능지수를 하나의 변수로 보고 수학점수를 또하나의 변수로 보았을 때

지능지수와 수학점수 간에는 어떤 관계가 있는지


혹은 상품의 수요량과 상품의 가격 및 소비자의 소득은

어떤 관계를 지니는지 알아보고자 하는 경우가 있다.

 

이와 같이 변수들 간의 관련성을 자료를 통하여 알 수 있다면 

한 변수의 변화를 관찰하여 다른 변수의 변화를 예측 할 수도 있을 것이며

다른 변수들이 어떤 값들을 취할 때 

관심 있는 변수의 최적점은  얻어질 것인가를 결정하는데 도움을 줄 수 있을 것이다.


이와 같이 두 개 이상의 변수들의 관계를 분석하는데 

사용되는 통계적 분석방법으로는 회귀분석과 상관분석 방법이 있다

 

그 중  상관분석에 대하여 알아보자


상관분석을 알기전에 먼저 독립변수와 종속변수의 관계에 대하여 정의하고 들어가도록하자

서로 관계를 지니고 있는 둘 이상의 변수중 


다른 변수에 영향을 주는 변수를 독립변수 (설명변수)라 하고

독립변수에 의해 영향을 받는 변수를 종속변수 (반응변수)라 한다.

 

위에서 예로 설명했던 지능지수나 상품의 가격 및 소비자들의 소득은 독립변수이고

수학점수나 상품의 수요량은 종속변수에 해당한다

 앞으로 설명할때는 편의를 위해 독립변수를 x 종속변수를 y 라 하고 설명하겠다.

 


자 그럼 상관분석은 무엇일가?

변수들이 얼마나 밀접하게 관련되어 있는가 하는 정도를 분석하는 방법을 말한다.


넓은 의미에서는 상관분석은 회귀분석의 개념에 포함되어 있으나 

좁은 의미에서는 회귀분석이라 할 때는 변수 사이의 관계식을 아는 것과 차이가 있다.

 

그럼 상관관계에 대해 알아보자

2개의 변량 x, y 사이에서 한쪽의 변화가 다른 쪽의 변화에 어떤 영향을 주는 경향이 있을 때를

상관관계(correlation)가 있다고 한다.


함수관계와 상관관계를 엄밀히 구별해 보면 함수관계는 어떤 변량 y가 다른 변량 x 에 의해 일정하게 결정되나 

관관계는 일정하게 정해지는 것이 아니라 평균적으로 어떤 폭을 가지고 정해짐을 의미한다.


하나의 예를 들어보자

어느 은행의 각 지점을 중심으로 홍보비용이 예금 유치액에 미치는 영향을 알기 위해 임의의 10개의 지점을 표본으로 추

출하여 연간 홍보비용과 예금 유치액을 조사하여 기재한 표이다.

 


 

홍보비용을 독립변수 x 라 하고

예금유치액을 종속변수 y 라 했을 때

두 변량사이의 상관관계를 규명하기 위해서는 

먼저 도표상에 관찰점을 표시해보면 개략적인 관계를 알 수 있을 것이다.



이러한 그림을 산점도, 상관도라 한다.



산점도를 그리면 x가 증가하면 y도 증가한다는 것을 알 수 있다.

위의 산점도는 단순한 1차 상관관계지만 어떠한 경우에는 아래와 같이 다양한 곡선 형태의 산점도가 나온다.

 


상관관계를 설명하기 위해 여기서는 1차원 상관관계만 이야기 하겠다.

 

산점도의 점들이 어떤 직선 주위에 밀접하여 있고 이 밀집된 직선의 방향계수가

상관관계를 나타낸다.

 

아래 그림과 같이 계수가 양의 방향이면 양의 상관

음의 방향이면 음의상관

어떠한 경향을 나타내지 않으면 무상관 이라 한다.

 

                  <양의 상관>                                     <무 상관>                                       <음의 상관>

 

X y 사이의 직선적인 상관관계 정도를 표본으로 수량적으로 표현한 값을 표본상관계수라 하고 다음과 같이 정의 한다.

분모 분자에 1/n 을 곱하면



그러면 다음과 같은 결과를 얻을 수 있다.


 

 그럼 위의 예제를 가지고 상관관계를 계산해보면

= 6800  /  sqrt(3400 * 13600) 

= 0.99 의 값을 얻을 수 있다.

 이는 거의 1에 가까우므로 완전 양산관에 가깝다고 말 할 수 있다.

 

 

여기서 상관계수는 다음과 같은 성질을 같는다.

 

1.     상관계수의 값은 항상 다음과 같은 범위에 있다. (-1  rxy ≤ 1)

2.     X y 사이에 상관이 없으면  rxy= 0 이다.

3.     음수 일때는 음의 상관 양수 일때는 양의 상관

4.     상관계수는 두 변량의 선형관계를 나타내는 척도이지 함수관계를 알아보는 척도는 아니다.



위의 사실을 알면 상관분석에 대해서는 어느정도 알게 되었다.


다음에는 회귀분석에 대해서 설명하겠다.

'[Public] 수학 > 기초통계' 카테고리의 다른 글

[기초통계]베이지안 통계 와 베이즈 정리  (0) 2010.06.30
[기초통계] 공분산과 상관계수  (5) 2010.06.30
1. 평균  (0) 2009.12.29