상관도 분석에 사용되는 방법: 피어슨/스피어만 순위/켄달 순위 상관계수

상관도 분석의 중요성

상관도 분석은 데이터 과학, 통계학, 사회과학 등 다양한 분야에서 중요한 도구이다. 이 분석을 통해 우리는 두 변수 간의 관계를 이해하고, 이를 바탕으로 더 복잡한 분석이나 예측 모델을 구축할 수 있다. 상관 분석은 변수들 사이의 연관성을 파악하고, 이를 통해 데이터에 숨겨진 패턴과 인사이트를 발견하는 데 중요한 역할을 한다.

상관 분석의 정의 및 방법

상관 분석은 두 변수 간의 관계의 강도와 방향을 측정하는 통계적 방법이다. 이는 변수들 사이의 선형적 또는 비선형적 관계를 파악하는 데 사용된다. 이러한 분석을 수행하기 위해 주로 사용되는 세 가지 기법이 있다: 피어슨 상관 계수, 스피어만 순위 상관 계수, 그리고 켄달 순위 상관 계수. 각각의 방법은 데이터의 특성과 분석 목적에 따라 선택되며, 서로 다른 관점에서 변수 간의 관계를 해석한다. 이 글에서는 이 세 가지 상관도 분석 방법에 대해 살펴보고, 각각의 특징과 적용 방법에 대해 알아본다.

1. 피어슨 상관 계수 (Pearson Correlation Coefficient)

정의: 피어슨 상관 계수는 두 변수 간의 선형 관계의 강도를 측정한다. 이는 -1에서 +1 사이의 값을 가지며, +1은 완벽한 양의 선형 관계, -1은 완벽한 음의 선형 관계를 나타낸다.
적용 조건: 주로 연속적이고 정규 분포를 따르는 데이터에 적용된다.
수식:

$$r = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum (X_i - \bar{X})^2 \sum (Y_i - \bar{Y})^2}}$$

파이썬 코드: corr가 기본적으로 지원하는 방법은 pearson이다.

import pandas as pd
df = pd.read_csv('data.csv')
pearson_corr = df.corr(method='pearson')

2. 스피어만 순위 상관 계수 (Spearman's Rank Correlation Coefficient)

정의: 스피어만 순위 상관 계수는 두 변수 간의 단조 관계의 강도를 측정한다. 이는 변수들이 서로 연관되어 있지만 반드시 선형적이지는 않을 때 유용하다.
적용 조건: 비선형 관계나 순위 데이터에 적합하다.
수식:

$$r_s = 1 - \frac{6 \sum d_i^2}{n(n^2 - 1)}$$

파이썬 코드:

spearman_corr = df.corr(method='spearman')

3. 켄달 순위 상관 계수 (Kendall Rank Correlation Coefficient)

정의: 켄달 순위 상관 계수는 두 변수 간의 순위 관계의 강도를 측정한다. 이는 데이터 셋이 작을 때 유용하며, 순위가 비슷한 쌍의 비율을 고려한다.
적용 조건: 작은 데이터셋이나 순위 데이터에 적합하다.
수식:

$$\tau = \frac{2}{n(n-1)} \sum \sum \text{sign}(x_i - x_j) \cdot \text{sign}(y_i - y_j)$$

파이썬 코드:

kendall_corr = df.corr(method='kendall')

각 방법의 적용 상황 및 선택 기준

피어슨 상관 계수는 선형 관계를 가정하는 경우에 적합
스피어만 순위 상관 계수는 비선형 관계나 순위 데이터에 적합
켄달 순위 상관 계수는 작은 데이터셋이나 순위 데이터에 적합

저작자표시 (새창열림)

'공부 > 데이터' 카테고리의 다른 글

머신러닝의 분류: 지도학습/비지도학습/강화학습 (0)	2023.12.02
손실함수의 이해와 종류/파이썬으로 구현까지 (0)	2023.12.01
머신러닝이란? 머신러닝의 기본 개념과 적용 사례 알아보기 (0)	2023.12.01
데이터 분석의 필요성과 적용 사례는 어떤 것이 있을까? (0)	2023.11.30
차원축소기법, 데이터의 복잡성을 단순화하는 접근법 (0)	2023.11.28

비욘드 인사이트, Beyond Insight

상관도 분석에 사용되는 방법: 피어슨/스피어만 순위/켄달 순위 상관계수

상관도 분석의 중요성

상관 분석의 정의 및 방법

1. 피어슨 상관 계수 (Pearson Correlation Coefficient)

2. 스피어만 순위 상관 계수 (Spearman's Rank Correlation Coefficient)

3. 켄달 순위 상관 계수 (Kendall Rank Correlation Coefficient)

각 방법의 적용 상황 및 선택 기준

'공부 > 데이터' 카테고리의 다른 글

티스토리툴바

상관도 분석에 사용되는 방법: 피어슨/스피어만 순위/켄달 순위 상관계수

상관도 분석의 중요성

상관 분석의 정의 및 방법

1. 피어슨 상관 계수 (Pearson Correlation Coefficient)

2. 스피어만 순위 상관 계수 (Spearman's Rank Correlation Coefficient)

3. 켄달 순위 상관 계수 (Kendall Rank Correlation Coefficient)

각 방법의 적용 상황 및 선택 기준

'공부 > 데이터' 카테고리의 다른 글

'공부/데이터' Related Articles

티스토리툴바