공분산

2023. 8. 30. 04:34Data Science/기초 이론

공분산이란?

변수 두개로 구한 분산

상관계수를 정의할 때 선형 관계의 강도를 수치화 하기 위해 쓰임

 

공분산의 값이 양수라면 x가 평균보다 클 때 y가 평균보다 크거나, x가 평균보다 작을 때 y가 평균보다 작은 경우가 많다.

산점도 그래프로 그려보면 우상향 그래프가 된다.

공분산의 값이 음수라면 x가 평균보다 클 때 y가 평균보다 작거나, x가 평균보다 작을 때 y가 평균보다 큰 경우가 많다.

산점도 그래프로 그려보면 우하양 그래프가 된다.

 

단위가 다른 데이터들 사이의 비교는 의미가 없기 때문에 공분산의 표준화가 필요하고,

공분산을 표준화한 값이 피어슨 상관계수이다.