1. Min-Max Scaler
- 데이터를 0과 1사이로 스케일링 해줍니다.
- 이상치에 영향을 받습니다. 이상치가 있다면 데이터가 매우 좁은 범위에 압축될 수 있습니다
2. Standard Scaler
- 데이터의 평균이 0, 분산이 1이 되게 스케일링 해줍니다.
- 이상치가 있다면 평균과 분산에 영향을 받아 스케일링에 영향을 줍니다.
3. Robust Scaler
- 데이터의 중앙값과 사분위수(25%,75%)를 사용해서 스케일링 해줍니다.
- 데이터가 이상치에 대한 영향이 적습니다.
스케일링을 하는 이유
데이터가 고유값,분산 등과 관련된 변환을 할때 (예시: 선형회귀, PCA) 오차를 최소화하기 위해서 진행
<구현>
0 comments:
댓글 쓰기