통계적 검정은 자료의 수에 관계없이, 자신이 수집한 자료가 표본이면 검정을 해야 하며, 모집단일 경우에는 검정할 필요가 없다.
모수(parameter) 와 통계량(statistic)
모수란 모집단 분포의 특성을 나타내는 양적 척도를, 통계량이란 표본 분포의 특성을 나타내는 양적 척도를 말한다.
양적 척도는 평균이나 비율과 같이 모집단이나 표본의 자료를 대표하는 값이거나, 분산이나 범위처럼 자료의 퍼진 정도를 나타내는 숫자들을 말한다. 모수는 그리스문자로, 통계량은 알파벳으로 표현한다. 모평균 μ , 표본평균 X (X 바)
가설(Hypothesis)
통계적 추론이란 확률표본으로부터 주어지는 정보를 이용하여, 모집단의 특성에 대한 예상, 주장 또는 추측을 말하며, 크게 추정과 가설검증으로 나뉜다.
가설검정은 미지의 모수에 대한 주장이나 추측의 옳고 그름을 판정하는 과정을 일컫는다.
통계적 가설(statistical hypothesis)
모수에 대한 주장이나 추측을 나타내며, 귀무가설과 대립가설로 나누어진다. 대립가설이란 연구자가 입증하고자 하는 가설, "차이가 있다", "다르다" "더크다" 등우로 표현되며, H1으로 표시한다. 귀무가설은 연구자의 새로운 주장이나 생각에 반대되는 것으로, "차이가 없다" "더 크지 않다"로 표현되면 H0를 사용한다. 귀무가설을 기호로 나타낼 때에는 항상 등호(=, equal)이 붙게 된다.
단측검정과 양측검정
대립가설이 "더 크다" "더 작다"와 같이 일방향성을 갖는다면 단측검정이 되고, "다르다" "차이가 있다"와 같이 양방향성을 갖는다면 양측검정이 된다.
검정의 결론
그 결과는 항상 귀무가설을 중심으로 표현한다. 즉, 대립가설을 선택하게 되면, "귀무가설을 기각한다" 귀무가설을 선택할 때에는 "귀무가설을 기각할 수 없다"라고 한다. 이것은 "자신이 얻은 자료로부터 귀무가설을 부정하고, 대립가설을 주장할만한 충분한 근거를 찾을 수 없었다"는 것이다.
기각역과 채택역
검정통계량이 취하는 영역을 지정된 기준에 다라 귀무가설을 기각하거나 채택하는 두가지로 나눌 수 있다. 이때 귀무가설을 채택하는 영역을 채택역, 기각하게 되는 영역을 기각역이라 한다.
유의수준(Significance level, α)
귀무가설이 옳은데도 기각되는 오류를 제1종의 오류라 한다. 이 오류를 범할 확률이 최대 허용한계를 검정의 유의수준이라 하며, α로 나타낸다. 즉 "실제로 차이가 없는데도 불구하고, 차이가 있다"라고 한 연구자의 주장이 잘못될 확률이다.
α값으로 0.01, 0.05, 0.10 이 사용된다. 유의수준 α인 검정법이란 제 1종의 오류를 범할 확률이 α이하인 검정법을 뜻한다.
검정력(Power of test)
귀무가설이 거짓일 때 이를 채택하는 오류를 제2종의 오류라 하며, β로 나타낸다.
검정력이란 1- β, 실제 차이가 있을 때 그 차이를 발견할 가능성을 나타낸다.
P값
"관측된 유의수준"이라고 불리는 P값은 확률값(probability value)라는 뜻이다. 여기서의 확률은 "귀무가설(차이가 없다)이 옳은 경우에, 연구자의 표본에서 계산된 검정통계량의 값이 그 이상 극단적으로 나타날 확률을 나타낸다.
만약 P=0.03 이라면 "차이가 없다는 것이 사실이라면, 표본에서 이만큼의 차이가 나타날 가능성이 0.03밖에 되지 않는, 아주 드문 현상이 벌어진 것이다. 따라서 표본에서 이 만큼의 차이가 나타나는 이유는, 실체로 차이가 있기 때문이다"라고 해석하여, "차이가 있다"라는 주장에 대한 강한 증거가 된다.
P=0.30이라면 "차이가 없다고 하더라도, 표본이 우연히 그 만큼의 차이를 보일 가능성이 흔하므로, 차이가 있다는 충분한 증거가 되지 않는다"로 해석한다.
P값은 검정통계량의 분포곡선에서 특정 구간사이의 확률을 덧셈이나 적분을 해야 구할 수 있는 값이다. 통계프로그램 활용한다.
'컴퓨터이야기' 카테고리의 다른 글
Lipschitz-continuous function (0) | 2021.01.26 |
---|---|
Tensorflow, CUDA, cudnn, GPU 설정하기 (0) | 2021.01.21 |
PIP 패키지 설치 위치 (0) | 2020.05.13 |
파이썬 // 연산자 (0) | 2020.03.03 |
파이썬 lambda, map (0) | 2020.02.25 |