본문 바로가기

고민거리/스크랩

[펌] p-value

http://adnoctum.tistory.com/332

p-value는, 귀무가설(null hypothesis, H0)이 맞다는 전제 하에, 통계값(statistics)[각주:1]이 실제로 관측된 값 이상일 확률을 의미한다.

일반적으로 p-value는 어떤 가설을 전제로, 그 가설이 맞는다는 가정 하에, 내가 현재 구한 통계값이 얼마나 자주 나올 것인가, 를 의미한다고 할 수 있다. p-value는 가설검정이라는 것이 전체 데이터를 갖고 하는 것이 아닌 sampling 된 데이터를 갖고 하는 것이기 때문에 필요하게된다.

정리를 하면, 가설검증이라는 것은 전체 데이터의 일부만을 추출하여 평균을 내고, 그 평균이 전체 데이터의 평균을 잘 반영한다는 가정 하에 전체 데이터의 평균을 구하는 작업인데, 아무리 무작위 추출을 잘 한다 하더라도 추출된 데이터의 평균은 전체 데이터의 평균에서 멀어질 수 있게 된다. 따라서, 내가 추출한 이 데이터의 평균이 원래의 전체 데이터의 평균과 얼마나 다른 값인지를 알 수 있는 방법이 필요하게 된다. 이와 같은 문제 때문에 나온 값이 p-value 이다.



모분포의 평균이 100 이다"라는 귀무가설이 참이라는 가정 하에서, 100 개의 데이터를 sampling 할 때 이론적으로 나올 수 있는 평균의 분포에서, 지금 내가 갖고 있는 값인 95 보다 큰 값이 나올 수 있는 확률. 그것이 p-value 이다. 위의 예에서 본 것과 같이, 만약 그럴 확률이 매우 낮다면 우리는 귀무가설을 기각할 수 있게 된다. 왜냐 하면, 우리는, 우연히 발생한다는 가정하에서는 발생할 가능성이 매우 희박한 사건이 실제로 발생했을 경우, 그것은 우연이 아니라고 생각하는 경향이 있고, p-value 역시 그와 같은 경향을 따른 것이다. 시험에서 우연히 100 점을 받을 확률은 매우 낮은데 정말로 100 점을 받은 사람이 있다면, 그가 우연히 100 점을 받았다고 생각하기보다는 '우연히' 100 점을 받은 것은 아니라고 생각한다. 또한 로또를 연속 5번 맞춘 사람이 있다면, 우연히 그런 일이 일어날 가능성은 매우 작으므로 그 일은 우연이 아니라고 생각하고, 뭔가 모종의 음모가 있다고 의심해 보게 된다

중략.. ^^

'고민거리 > 스크랩' 카테고리의 다른 글

[펌]statistical hypothesis testing  (0) 2012.01.20
z 점수 [ z score ]  (0) 2012.01.20
[펌] Central Limit Theorem  (0) 2012.01.16
[펌] management science/opreation research  (0) 2012.01.10
[펌]모바일 네이티브 연대기  (0) 2012.01.05