본문 바로가기

All about Data/Statistics

사례를 통해 P-value, 유의확률 쉽게 이해해보기

통계(Statistics)는 상식을 숫자로 옮겨놓은 것쯤으로 쉽게 생각했는데, 공부를 해볼수록 어렵다.
그러나 통계는 강력하다. 수백만 달러 거래성사의 근거가 되기도 하고 국가정책 결정의 기반이 되기도 한다. 최근에는 인공지능과 데이터분석의 근간이 되는 학문으로써 더욱이 주목받고 있다.

우선 통계를 시작하는 단계에서, P-value(P값)를 빠뜨릴 수 없다.

흔히 어떠한 통계를 검정하는 과정에서 정말 의미가 있는 것인지, 아니면 크게 의미가 없는 것인지판단하는 척도가 되기 때문이다.
통계적 표현으로 이야기하자면, 전자를 '유의하다(의미가 있다)'로 표현하고, 후자를 '어쩌다 일어난, 우연일 뿐이다(의미가 없다)'라고 할 수 있다. 즉, 어떠한 가설이 유의한 것인지, 우연히 일어난 일인지 판단함으로써 가설을 인정하거나 기각할 때 p값을 사용한다고 보면 되겠다. 통상적으로 p값은 0.05 수준으로 선정한다(왜 이 숫자로 선정하는 지는 하단에서 다루었다).

사례를 통해서 접근해보자.

조금 진부하지만 위키백과에서 언급한 사례니까, 동전 던지기로 적용해보겠다.
동전은 앞/뒤 2개의 경우밖에 없기 때문에, 확률은 1/2이다. 20번 동전을 던지면, 앞면은 10번 쯤은 나온다고 가정하는 것이다.
그런데, 20번의 기회 중에 앞면이 14번 이상이 나왔다면, 과연 우연에 의한 것일까? 아니면 누군가 조작했다고 봐야하는 걸까?

앞서 이야기한 내용을 통계적 표현으로 정리해보겠다.

  • 귀무가설(Null Hypothesis) : 동전 던지기의 확률은 1/2이다.
  • 20번 중에 14번 이상 앞면이 나온 것은 우연이다. → 여전히 동전 던지기 확률은 1/2이다. → 귀무가설 유지
  • 20번 중에 14번 앞면이 나온 것은 우연이 아니었다. → 동전 던지기 확률은 1/2이 아닐지 모른다. → 귀무가설 기각


여기서 동전 던지기 20번 중에서 14번 이상 앞면이 나온 것이 우연인지 아닌지 진위여부를 판단하는 자체가 '검정'이고, 그 검정을 판단하는 기준을 'P-value'라고 한다.

'value'라는 단어 때문에 헷갈리지만 결국 p-value는 0~1사이의 숫자이고 확률이다. 그래서 p-value를 다른 말로, 유의확률(significance probability)라고도 부른다.

  • p값 0.023 → 2.3%의 확률


그럼 결국, 위 사례에서 p-value를 구하고 싶다면, 우리는 20번의 동전을 던져서 14번 이상 앞면이 나올 확률이 얼마인지를 계산하면된다.
n번 실행했을 때, k번 성공하는 횟수를 표현하는 이항확률변수 공식을 아래처럼 표현한다.


즉, 20번 던져서 14번이 앞면이 나오는 횟수를 20! / 14!x6! 로 계산할 수 있다.
14번 이상 앞면이 나올 확률을 모두 더해야하므로, 아래와 같이 표현할 수 있고 합계는 60,460이다. 복잡해보이지만, 14번 나올 확률, 15번 나올 확률, 16번 나올 확률 ... 이런 식으로 계산식을 더한 것 뿐이다.

  • 20! / 14!x6! + 20! / 15!x5! + 20! / 16!x4! + 20! / 17!x3! + 20! / 18!x2! + 20! / 19!x1! + 20! / 20!x0!


이제 우리는 20번 동전을 던졌을 때, 14번 이상 앞면이 나오는 건수를 알아냈고, 20번 던졌을 때의 모든 경우의 수만 구하면 된다.
20번 모두 1/2의 확률이니, 1/2를 20번 곱하면 1,048,576이라는 수치를 얻게된다.

  • 분자: 동전 20번을 던졌을 때, 14번 이상 앞면이 나오는 건수 = 60,460
  • 분모: 동전 20번을 던졌을 때 나오는 모든 경우의 수 = 1,048,576


이제 분자를 분모로 나누면, 0.058이라는 p값을 얻게되고 기준값으로 통상 설정하는 0.05보다 큰 값이므로,
우리는 귀무가설을 유지하기로 결정하고, 이건 우연에 의해 일어난 것으로 판단한다.
그런데 상황을 15번 이상으로 변경하면, p값은 0.02가 되고, 이건 우연이 아니라 누군가 조장했을 수 있다고 결론을 내릴 수 있다.


P-value는 0.05가 아니다.

많은 통계검정에서 P-value를 0.05보다 작은 경우에 유의미하다고 본다.
그래서 p-value의 자체 값을 0.05 고정값으로 생각하는 경우가 더러 있지만, 0.05는 p-value가 유의미한지 아닌지 판단하는 기준일 뿐이다. 실제 p-value는 가변숫자이다.

그렇다면, 굳이 0.05여야 하는 이유가 있을까?
수학자 Ronald Fisher가 p-value 기준을 0.05로 논문에 썼다고 알려져있는데, 수학적으로 입증할만한 근거는 없는 임의의 값이라고 보는게 더 맞을 것 같다. 그의 말을 빌려보면, 통계학자들에게 5%는 편리한 장치라고 한다.


통계를 검증하는 자들에게 유의수준으로 5%는 편리하고 일반적이다. 5%라는 기준치에 부합하지 못한 결과는 기각(무시)함으로써 추가 논쟁과, 무엇보다도 실험 결과에 포함된 우연히 발생한 변동성들을 피할 수 있다.
"It is usual and convenient for experimenters to take 5 percent as a standard level of significance, in the sense that they are prepared to ignore all results which fail to reach this standard, and, by this means, to eliminate from further discussion the greater part of the fluctuations which chance causes have introduced into their experimental results."


P값에 따른 결정은 언제나 옳은가?

어디까지나 p값도 확률이기 때문에, 0.05를 기준으로 설정할 경우 우리는 반드시 5%의 오류를 갖는다.

앞서 예시를 든 동전 사례에서, 앞면이 15번 이상 나올 경우 p값이 0.02으로 0.05보다 작은 극단 값을 가지므로, 누군가 조작했을 가능성이 있다고 판단하게 되는데, 과연 언제나 그럴까? 정말 15번 이상 앞면이 우연히 나올 수는 절대 없는걸까?
물론 있다. 왜냐면 0.02값을 가졌다는 것은 2%의 확률로 15번 이상 앞면이 나올 수 있다는 것이기 때문이다.

그래서 통계학자들은 0.05의 값이 너무 크다고 0.005로 조정하자는 주장이 많다. 실제로 데이터를 조작해서 악용하는 사례가 나타나고 있기도 해서 p-value 사용에 주의할 것을 권고하고 있다.


p-value를 잘 이해함으로써, 잘 활용하고, 잘 속지말자.


참고자료, 위키백과