Today I Learned/통계

P-value 로 두 집단에 차이가 있는지 검증하기

하나719 2020. 9. 22. 14:15
반응형

출처: 마인드스케일 통계강의 수업자료

귀무가설, P-value 등 이게 대체 무슨 소리인가 싶었고, 그냥 P-value가 0.05 이하면 된다 이정도로만 이해하고 있었는데

오늘 한 단계 더 이해해보았다.

 

구체적 상황 설정

  • 상황: 이번에 우리 서비스의 추천 알고리즘을 개선했다. 콘텐츠를 추천했을 때 기존의 알고리즘보다 클릭율이 높은지 검증하려고 한다.
    • 새로 개발한 추천 시스템 -> A, 기존 추천 시스템 -> B
  • 대립가설: A 클릭율이 B 클릭율보다 높다.
  • 귀무가설: A 클릭율이 B 클릭율보다 작거나 같다.

여기서 우리의 목표는 귀무가설을 기각하고, 대립가설을 채택하는 것이다.

이렇게 귀무가설을 세우는 이유는, 대립가설을 증명하는 것보다 귀무가설이 틀렸음을 증명해서 대립가설을 선택하는 것이 더 쉬운 방법이라고 한다.

 

P-value 등장

귀무가설이 참이라고 가정한 상황에서, 표본 데이터에서 추출한 수치가 나올 확률을 P-value 라고 한다.

위에 예시를 참고하면, 실제 표본데이터를 조사해보니 A 클릭율이 B 클릭율 보다 3% 높았다.

귀무가설 A 클릭율이 B 클릭율보다 작거나 같은 상황이 참일 때, 위와 같은 표본데이터의 수치가 나올 확률을 P-value라고 한다.

이 P-value가 유의수준보다 낮으면 우리는 귀무가설을 기각할 수 있다.

* 유의수준: 100% - 신뢰수준

 

신뢰수준을 95% 로 설정하는 경우가 많아서, 유의수준을 5%정도로 두는 경우가 많다.

 

반응형