Today I Learned/통계

통계적 가설 검정 - 1종 오류가 더 위험한 이유

하나719 2020. 9. 25. 16:29
반응형

귀무가설을 검정하는 과정에서, 오류를 발생시킬 수 있는 경우가 2가지가 있다.

 

예를들어보자,

  • 상황: 추천시스템 새로 개발
  • 대립가설: 새로 개발한 추천시스템을 통한 클릭율이 기존보다 더 높을 것이다.
  • 귀무가설: 새로 개발한 추천시스템을 통한 클릭율이 기존보다 더 높지 않을 것이다.

1) 귀무가설이 참인데, 기각하고 대립가설 채택: 1종오류

> 새로 개발한 시스템이 더 좋지 않음에도 좋다고 판단해서 업데이트를 해버리는 상황

 

2) 귀무가설이 거짓인데, 기각하지 않음: 2종오류

> 새로 개발한 시스템이 더 좋은데, 좋지 않다고 판단하고 업데이트 하지 않는 상황

 

이 때, 새로 개발한 추천시스템이 클릭율이 사실은 1% 더 낮다고 해보자.

1종오류를 범하면 현재보다 더 안좋은 결과를 초래할 수 있고,

2종오류를 범하면 더 좋아질 수 있었던 기회를 잃어버리고 현재 상태로 남아 있게 된다.

 

둘 다 좋은상황은 아니지만, 1종오류의 피해가 더 크기 때문에 더 조심해야한다.

내가 주장하는건 대립가설이기때문에 귀무가설을 기각하고 싶은 욕구가 더 크겠지만,

의심하는 마음을 가지고 1종 오류 범하는 것을 주의하자 (2종 오류도 조심!)

1종 오류, 2종 오류 표로 그려보기

  귀무가설 참 귀무가설 거짓
귀무가설 채택 옳은 결정 2종 오류
귀무가설 기각 1종 오류 옳은 결정

 

1종 오류와 2종 오류는 trade off 관계

이 부분은 특히 이해가 어려웠던 부분인데, 내가 오해하고 있던 사실 2가지를 발견했다.

 

1 ) 귀무가설은 1 또는 0으로 딱 떨어지지 않는다.

귀무가설은 참이거나 거짓일텐데 왜 트레이드 오프 관계인거지? 라고 생각했다.

하지만 현실에서는 100%라는 건 없다. 아무리 가능성이 커도 99.9999%이며, 만약의 가능성은 항상 있다.

그렇기 때문에 1종오류 혹은 2종오류의 가능성은 항상 존재한다. 

나는 귀무가설이 참이면 2종오류는 없고, 귀무가설이 거짓이면 1종오류는 없다고 생각했는데, 모든게 확률로 따져진다.

 

2) 2개의 정규분포표는 적게 겹치거나 많이 겹치거나

귀무가설과 대립가설의 정규분포가 항상 겹치는건지에 대한 의문이 있었는데, 하나의 현상에 대한 정규분포는 양 극단이 확률적으로 작아지는 것 이기 때문에 X축에 닿지는 않는다.

따라서 2개의 다른 정규분포표는 많이 겹치거나, 적게 겹치거나이다.

두 정규분포가 많이 겹친다면 차이가 거의 없다는 것이기 때문에 비교가 의미가 없다.

 

 

출처: 유튜브- 손으로 푸는 통계 

유의수준을 3%로 5%보다 더 보수적으로 보면 위 그림에서 알파 영역은 감소하고 베타 영역이 증가한다.

이 말은 판단을 이전보다 쉽게 내리지 않고 더 고심해서 결정을 하겠다는건데, 이러면 상대적으로 귀무가설을 채택할 확률이

높아지고 귀무가설을 채택해서 발생하는 2종오류 확률이 높아지게 되는것이다.

 

 

 

피드백 주신 데잇걸즈 4기 최이정님 감사합니다 😍

 

 

참고

- 유튜브: 손으로 푸는 통계 채널

- 마인드스케일: 유재명님 통계 강의

 

 

반응형