본문 바로가기

컴퓨터이야기

[펌]정규화와 표준화

1. normalization

​normalization은 정규화이다. 조금 헷갈리는게, 표준화와 정규화가 약간 혼용되어 사용된다는 점이다. 일단 구글링의 결과 정규화는 우리가 고등학교때 배운 정규분포의 정규화가 아니라 데이터의 범주를 바꾸는 작업이다. 예를 들어 여러개의 feature가 있는데 어떤거는 100 ~ 200사이의 값이고, 어떤거는 -10 ~ 10 사이의 값이고, 어떤거는 -100 ~ 300 사이의 값이라고 해보자. 그러면 이 값들을 분석하기 쉽지가 않을 것이다. 따라서 이런 불편을 줄이기 위해 범주를 일치시킬 수 있다. 이런 작업을 normalization이라고 한다. 보통은 0 ~ 1 사이의 값으로 범주를 일치시킨다. 밑에 식을 이용해서 normalize하면 0 ~ 1로 범주가 일치된다.

          

          

 

 

2. standardization 

standardization은 표준화이다. 고등학교때 배운 표준정규분포를 구하는 식으로 구하면 된다. 다른 말로는 z - transformation이라고도 하고, 그렇게 표준화된 값을 z - score라고도 한다. standardization을 통해 KNN에서 해본 wine classification을 해보면 94%정도의 정확도가 나온다. 다시한번 말하지만 물론 KNN말고도 일반적인 데이터 전처리에 사용된다. 그리고 식은 아래와 같다.

각 observation이 평균을 기준으로 어느 정도 떨어져 있는지를 나타낼때 사용된다. 값의 스케일이 다른 두 개의 변수가 있을 때, 이 변수들의 스케일 차이를 제거해 주는 효과가 있다. 제로 평균 으로부터 각 값들의 분산을 나타낸다. 각 요소의 값에서 평균을 뺀 다음 표준편차로 나누어 준다.

         

[출처] 표준화와 정규화 (standardization vs normalization in classification)|작성자 zzing0907

'컴퓨터이야기' 카테고리의 다른 글

getElementById('name')  (0) 2019.11.09
Kullback-Leibler divergence(KL-Divergence)  (0) 2019.08.19
np.argsort 역순으로  (0) 2019.04.17
[펌]Kullback-Leibler Divergence  (0) 2019.04.15
Time 모듈  (0) 2019.03.19