Quantile Transformation

데이터 분포 변환을 하는 이유는?

많은 머신러닝 알고리즘들은 변수의 분포가 가우시안분포일때, 더 좋은 성능을 냅니다.

우리의 변수들은 특정 확률 분포로 인해 수집 된 것으로 가정이 됩니다.

가우시안 분포는 일반적으로 우리에게 친숙한 종 모양 분포이고 우리는 "정규분포"라고도 부릅니다.

특히 선형 회귀, 로지스틱 회귀는 모수가 가우시안 분포임을 가정하기 때문에 실제로 가우시안 분포의 변수에서 더 좋은 성능을 냅니다.

종종 독립변수들이 지수분포처럼 높은 왜도를 가지고 있거나, 이상치가 있거나 분산이 너무 높을 수도 있습니다. 이런 점은 비정규분포나 다봉분포로 나타나게되어 모델을 만드는데 어려움을 겪게 하기 때문에 우리는 데이터의 분포를 변환해야 합니다.

quantile transformation은 변수의 확률분포를 퀀타일 함수(PPF)로 맵핑시키는 작업입니다.

퀀타일 함수는 누적분포함수(CDF)의 역함수 입니다.

CDF는 현재 값과 현재 값 이전의 값들을 반환하는 반면

PPF는 반대로 현재 값과 이전의 값들에게 주어진 확률을 반환합니다.

정규분포로 변환시킬떄는 probit 함수를 사용합니다.

☝ 이 문서는 https://machinelearningmastery.com/quantile-transforms-for-machine-learning/를 참고하여 작성했습니다.