상관분석
일상 생활이나 학문 연구에서 둘 또는 그 이상의 변수들이 서로 관계를 가지고 변화할 때
그 관련성을 규명해야하는 경우가 많이 있다.
예를 들면 지능지수를 하나의 변수로 보고 수학점수를 또하나의 변수로 보았을 때
지능지수와 수학점수 간에는 어떤 관계가 있는지
혹은 상품의 수요량과 상품의 가격 및 소비자의 소득은
어떤 관계를 지니는지 알아보고자 하는 경우가 있다.
이와 같이 변수들 간의 관련성을 자료를 통하여 알 수 있다면
한 변수의 변화를 관찰하여 다른 변수의 변화를 예측 할 수도 있을 것이며
다른 변수들이 어떤 값들을 취할 때
관심 있는 변수의 최적점은 얻어질 것인가를 결정하는데 도움을 줄 수 있을 것이다.
이와 같이 두 개 이상의 변수들의 관계를 분석하는데
사용되는 통계적 분석방법으로는 회귀분석과 상관분석 방법이 있다
그 중 상관분석에 대하여 알아보자
상관분석을 알기전에 먼저 독립변수와 종속변수의 관계에 대하여 정의하고 들어가도록하자
서로 관계를 지니고 있는 둘 이상의 변수중
다른 변수에 영향을 주는 변수를 독립변수 (설명변수)라 하고
독립변수에 의해 영향을 받는 변수를 종속변수 (반응변수)라 한다.
위에서 예로 설명했던 지능지수나 상품의 가격 및 소비자들의 소득은 독립변수이고
수학점수나 상품의 수요량은 종속변수에 해당한다
자 그럼 상관분석은 무엇일가?
변수들이 얼마나 밀접하게 관련되어 있는가 하는 정도를 분석하는 방법을 말한다.
넓은 의미에서는 상관분석은 회귀분석의 개념에 포함되어 있으나
좁은 의미에서는 회귀분석이라 할 때는 변수 사이의 관계식을 아는 것과 차이가 있다.
그럼 상관관계에 대해 알아보자
2개의 변량 x, y 사이에서 한쪽의 변화가 다른 쪽의 변화에 어떤 영향을 주는 경향이 있을 때를
상관관계(correlation)가 있다고 한다.
함수관계와 상관관계를 엄밀히 구별해 보면 함수관계는 어떤 변량 y가 다른 변량 x 에 의해 일정하게 결정되나
관관계는 일정하게 정해지는 것이 아니라 평균적으로 어떤 폭을 가지고 정해짐을 의미한다.
하나의 예를 들어보자
어느 은행의 각 지점을 중심으로 홍보비용이 예금 유치액에 미치는 영향을 알기 위해 임의의 10개의 지점을 표본으로 추
출하여 연간 홍보비용과 예금 유치액을 조사하여 기재한 표이다.
홍보비용을 독립변수 x 라 하고
예금유치액을 종속변수 y 라 했을 때
두 변량사이의 상관관계를 규명하기 위해서는
먼저 도표상에 관찰점을 표시해보면 개략적인 관계를 알 수 있을 것이다.
이러한 그림을 산점도, 상관도라 한다.
산점도를 그리면 x가 증가하면 y도 증가한다는 것을 알 수 있다.
위의 산점도는 단순한 1차 상관관계지만 어떠한 경우에는 아래와 같이 다양한 곡선 형태의 산점도가 나온다.
상관관계를 설명하기 위해 여기서는 1차원 상관관계만 이야기 하겠다.
산점도의 점들이 어떤 직선 주위에 밀접하여 있고 이 밀집된 직선의 방향계수가
상관관계를 나타낸다.
아래 그림과 같이 계수가 양의 방향이면 양의 상관
음의 방향이면 음의상관
어떠한 경향을 나타내지 않으면 무상관 이라 한다.
X와 y 사이의 직선적인 상관관계 정도를 표본으로 수량적으로 표현한 값을 표본상관계수라 하고 다음과 같이 정의 한다.
분모 분자에 1/n 을 곱하면
그러면 다음과 같은 결과를 얻을 수 있다.
여기서 상관계수는 다음과 같은 성질을 같는다.
1. 상관계수의 값은 항상 다음과 같은 범위에 있다. (-1 ≤ rxy ≤ 1)
2. X와 y 사이에 상관이 없으면 rxy= 0 이다.
3. 음수 일때는 음의 상관 양수 일때는 양의 상관
4. 상관계수는 두 변량의 선형관계를 나타내는 척도이지 함수관계를 알아보는 척도는 아니다.
위의 사실을 알면 상관분석에 대해서는 어느정도 알게 되었다.
다음에는 회귀분석에 대해서 설명하겠다.
'[Public] 수학 > 기초통계' 카테고리의 다른 글
[기초통계]베이지안 통계 와 베이즈 정리 (0) | 2010.06.30 |
---|---|
[기초통계] 공분산과 상관계수 (5) | 2010.06.30 |
1. 평균 (0) | 2009.12.29 |