[펌] www.statedu.com/lecture/262342
통계분석을 하다보면 T, F, x^2 등의 값이 자주 나오게 되는데, 항상 P 값과 같이 나오게 된다. 이때, 이 값들이 무엇을 뜻하는지는 paper 에도 나오지 않고, 오직 P 값만으로 설명을 하게 된다.
T-test 를 하게 되면 T, P 값이
ANOVA 를 하게 되면 F, P 값이
회귀분석에서는 F, T, P 값이
교차분석에서는 X^2, P 값이 나오게 된다.
위의 그림을 보게 되면 x 축에 T, F 값이 있다. 그리고, 그 값을 기준으로 오른쪽의 면적이 P 이다.
컴퓨터가 발전되기 전까지는 통계분석을 할 때, 손으로 일일이 계산하였다, T-test 의 경우에는 2 그룹간의 차이가 있는가를 알기 위해서 T 값을 계산하였다. 그렇게 계산되어진 값이 검정통계량이라고 하며, 통계분석에서 출력되는 T 값이다. 이 T 값을 가지고 어떤 기준치(기각역, 임계치 라고 함)와 서로 비교를 하게 되는데, 그 기준치는 유의수준이 0.05가 되게 하는 값이다. 즉, 위의 그림에서 오른쪽의 빗금친 면적이 0.05이게 하는 X 축의 값이다.
이렇게 계산되어진 T 값이 기준값보다 크면 H1 을 선택해서 유의한 차이가 있다라고 하며, 그 기준값보다 작으면 유의한 차이가 없다라고 하는 것이다.
그런데, 이 기준값은 분석 할때마다 변하게 된다. 정확하게는 case 의 수 등에 따라 다르다는 것이다. 그래서, 분석을 하게 되면 매번 그 기준값을 찾아주어야 하는데, 그 기준값을 정리해 놓은 것이 바로 통계학 책의 맨 마직막에 있는 수표들이다.
결국, 손으로 계산한 T 값과 수표에서 찾은 기준값을 서로 비교해서 유의한 차이가 있는가 없는가를 결정하는 것이다.
그러다가, 컴퓨터가 발전이 되면서 직접 어떤 T 값이 계산되어 나왔을 때, 그때의 빗금친 면적을 컴퓨터가 계산하게 되었다. 이렇게 계산되어진 값이 바로 P 값이다. 이 P 값 역시 어떤 기준치와 비교를 하여야 하는데, 그 기준치가 앞에서 나왔던 0.05인 것이다.
이렇게 P 값을 계산하게 되면 기준치가 변하지 않고 항상 같은 0.05란 값과 비교를 하게 되므로 결과의 해석을 하는데, 상당히 편하게 되었다.
결국 T, F 값이나 P 는 같은 것이다. 즉, T 값에 의해서 P 값이 결정지어 지는 것이라는 말이다. 다른 F, X^2 등도 같은 의미를 가지고 있다.
예전(컴퓨터가 발전되기 전)에는 P 값을 계산하지 못했으므로, 논문에서는 T, F 값 등만을 실어줄 뿐이고 P 값을 실어주지 않았다(못했다는 표현이 좀더 정확). 그래서, *** 를 이용하여 표시를 하였는데, 그것은
0.05 이게 하는 기준값보다 T 값이 크면 * 가 하나 *
0.01 이게 하는 기준값보다 T 값이 크면 * 가 두개 **
0.001 이게 하는 기준값보다 T 값이 크면 * 가 두개 ***
를 표시하고 논문에는
* : P < .05
** : P < .01
*** : P < .001
로 표시한 것이다. 즉, *** 표시 등은 P 값을 정확히 알 수 없으므로 어느 정도 된다는 것을 보여주기 위하여 표시한 하나의 임시방편이다.
그러나, 이제는 통계 프로그램이 정확히 P 값을 계산하여 주므로 *** 등의 표시보다는 P 값 자체를 실어주는 것이 좀더 정확하고 신뢰성이 높다.
이제는 P 값이 계산되어지는 방식에 대해 설명한다.
편의상 정규분포의 Z-test 를 이용하여 설명하면, X 축은 Z 가 나오게 된다. 만약 계산되어진 Z 값이 1.645 이었다면 그때의 P 값은 아래의 정적분 공식에 의해서 계산되어진다.
위의 계산식에 의해 계산된 결과 값은 0.05 가 나온다.
만약 T-test 이었다면 그 계산식은 위의 식과는 또 다른 적분식이 나오게 되는 것이고, 현실적으로 이것을 손으로 계산하는 것은 상당히 어려운 일이다.