1. LSTM은 왜 만들어 졌는가? 1) RNN의 기울기 소멸 문제를 해결하기 위해 2. 기울기 소멸을 어떻게 해결 했는가? 1) 오차역전파에 영향을 받지 않고, Cell State를 통해 정보가 흐름 2) Cell State는 시그모이드를 통해...
Continue Reading→2022년 1월 25일 화요일
2022년 1월 20일 목요일
시계열 검정
1. 정상성 여부 정상성(Stationarity)이란? 시계열 데이터와 관측된 시간간의 관계성 정상 시계열은? 추세(Trend)와 계절성(Season)을 나타내지 않는 시계열. 시계열데이터에 추세, 계절성이 있는 비정상 시계열일 경우, 추세와 계절성...
Continue Reading→2022년 1월 4일 화요일
가설검정 - 분산분석 F검정
여러 표본간 평균이 차이가 있다는 것을 보여주기 위해서 분산분석에서는 F-value를 이용해서 검정을 하고 있습니다. F-value는 "집단 간 분산"과 "집단 내 분산"의 비율로 계산 됩니다. (집단 간 분산/집단...
Continue Reading→2022년 1월 2일 일요일
가설검정 - 평균검정, t-test
오늘은 평균을 이용한 가설검정 방법중 하나인 T검정에 대해 알아보겠습니다. T검정은 두 모평균의 차이를 검정하는 것으로 주의할점은 다음과 같습니다. 1. 모분산이 알려져 있지않고, 표본수도 적은 자료를 접했을때 사용하는 것이다. 2. "두 모...
Continue Reading→2021년 12월 22일 수요일
머신러닝에서 피쳐 스케일링이 왜 중요할까?
오늘은 피쳐 스케일링에 대해서 알아보겠습니다. 1. 피쳐 스케일링은 무엇일까? 데이터의 크기,단위,범위가 다양한 변수를 일정 구간 안의 값으로 변환 시키거나 일정 평균과 분산을 갖도록 값을 변환하는 것을 말한다. 2. 왜 우리는 피쳐 스케일링을 해...
Continue Reading→2021년 12월 16일 목요일
XGBoost Regression
XGBoost는 Gradient Boost처럼 예측값과 실제값의 Residual을 계산하고 특정 기준에 따라 decision tree를 만듭니다. 그리고 그 결과를 learning rate를 곱해서 반복적으로 잔차를 개선시키는 방식입니다. 그러나 ...
Continue Reading→2021년 12월 15일 수요일
Gradient Boost Regression
1. AdaBoost와 Gradient Boost와의 차이 1) AdaBoost는 이전 stump의 에러들을 기반으로 새로운 stump들을 만든다. 2) 이와 반대로 Gradient Boost는 tree나 stump가 아닌 단일 leaf 부터 생성한다...
Continue Reading→2021년 12월 12일 일요일
Quantile Transformation - 데이터 분포 변환(1)
데이터 분포 변환을 하는 이유는? 많은 머신러닝 알고리즘들은 변수의 분포가 가우시안분포일때, 더 좋은 성능을 냅니다. 우리의 변수들은 특정 확률 분포로 인해 수집 된 것으로 가정이 됩니다. 가우시안 분포는 일반적으로 우리에게 친숙한 종 모양 분포이고 ...
Continue Reading→2021년 12월 11일 토요일
AdaBoost를 이용한 분류
1. AdaBoost 란? 1) AdaBoost는 앙상블 기법 중 부스팅 방식의 기초적인 알고리즘 2) 가중치를 이용해서 강한 분류기를 만드는 방법 2. AdaBoost의 학습과정은? 1) 우리가 가지고 있는 샘플(데이터)의 각 샘플마다 가중치를 1/...
Continue Reading→2021년 12월 10일 금요일
Decision Tree의 Regression
Decision Tree가 어떻게 Regression을 수행하는 지에 대해서 알아보겠습니다. <루트노드 선택하기> 1. 각 독립변수와 독립변수간의 평균을 구합니다. 2. 구해진 평균을 기준으로 데이터를 분기합니다. ...
Continue Reading→