Data Science(6)
-
공분산
공분산이란? 변수 두개로 구한 분산 상관계수를 정의할 때 선형 관계의 강도를 수치화 하기 위해 쓰임 공분산의 값이 양수라면 x가 평균보다 클 때 y가 평균보다 크거나, x가 평균보다 작을 때 y가 평균보다 작은 경우가 많다. 산점도 그래프로 그려보면 우상향 그래프가 된다. 공분산의 값이 음수라면 x가 평균보다 클 때 y가 평균보다 작거나, x가 평균보다 작을 때 y가 평균보다 큰 경우가 많다. 산점도 그래프로 그려보면 우하양 그래프가 된다. 단위가 다른 데이터들 사이의 비교는 의미가 없기 때문에 공분산의 표준화가 필요하고, 공분산을 표준화한 값이 피어슨 상관계수이다.
2023.08.30 -
유클리드 거리
유클리디안 거리 혹은 유클리드 거리 : 값들 간의 거리를 구하는 알고리즘 피타고라스의 정리와 비슷하나 추가적으로 여러 차원의 거리를 계산할 수 있다.
2023.08.30 -
카이제곱 검정
카이제곱 검정이란? 두 변수가 관련될 가능성 여부를 확인하는 방법 기본 전제는 변수들이 서로 관련이 없다는 것 데이터에 있는 행과 열 합계를 고려하여 실제값과 기대값을 비교하는 것 검정 방식 실제값과 기대값 사이 차이를 계산하고 구해진 차이를 제곱한다. 조합에 대한 기대값으로 나눈다. 각 변수 조합에 대해 산출된 값들을 합산하여 산출되는 결과가 검정 통계랑. 산출된 검정 통계량을 카이제곱 분포의 값과 비교한다. 참고 자료 https://www.jmp.com/ko_kr/statistics-knowledge-portal/chi-square-test/chi-square-test-of-independence.html
2023.08.30 -
피어슨 상관 계수
- 두 변수의 선형 상관 관계를 계량화한 수치 - -1~1 사이의 값을 갖는다. - +1은 완벽한 양의 선형 상관 관계, -1은 완벽한 음의 선형 상관 관계, 0은 상관 관계없음을 의미한다. - 대체적으로 0.3 이상이면 상관 관계가 존재한다고 평가한다.
2023.08.30 -
수치 데이터/연속형 데이터/이산형 데이터/범주형 데이터/순위형 데이터/명목형 데이터
수치형 데이터 : 가격, 시간, 성적, 키, 몸무게 같이 숫자 형태로 측정되는 데이터 연속형 데이터 : 데이터와 데이터 사이에 끊어짐이 없는 값, 주로 측정을 통해 얻을 수 있다. 이산형 데이터 : 데이터와 데이터 사이에 끊어짐이 있는 데이터, 주로 개수를 세서 측정한다. 범주형 데이터 : 'A', 'B', 'C'와 같이 종류를 표시하는 데이터, 카테고리 데이터라고도 부른다. 순위형 데이터 : 각 범주의 데이터들 사이에 순위가 있는 데이터 명목형 데이터 : 데이터 간 순위가 없다.
2023.08.29 -
선형 관계 / 비선형 관계 / 단조 관계
선형 관계 선형 관계는 두 변수가 동시에 일정한 비율로 증거하거나 감소하는 경우입니다. 직선으로 모형화 할 수 있는 데이터의 추세입니다. 비선형 관계 비선형 관계는 두 변수 사이의 관계가 선형이 아니라 한 변수가 변하면 증가 또는 감소 비율이 달라지는 경우입니다. 이러한 곡선 추세는 2차 또는 3차 함수 등 비선형 함수를 사용하여 더 잘 모형화 할 수 있으며, 선형으로도 변환할 수도 있습니다. 단조 관계 선형 관계에서 두 변수가 동일한 방향과 일정한 비율로 이동하는 것과 달리 단조 관계는 두 변수가 동일한 상대적인 방향으로 이동하나 반드시 일정한 비율로 변화하는 것은 아닌 것을 뜻합니다. 선형 관계는 단조 관계이기도 합니다.
2023.08.29