안녕하세요. 그녀입니다! 👩🏻🏫
통계 분석이라 하면 t-test, 회귀분석 등등 많이 들어보셨을텐데,
통계 분석을 하기에 앞서 가장 기본이 되는 개념을 놓치고 있으면 가설 수립과 해석이 의미가 없습니다.

그래서 통계 분석하기 전에, 초보자 분들을 위해 기초 통계 용어를 정리해보려고 합니다!
통계 분석 절차
통계 분석은 아래의 절차대로 진행되는데요.
- 가설 설정
- 유의수준 결정 (α)
- 측정지표 선정
- 통계 분석 수행
- 해석
자 그런데.. 가설..? 유의수준..? p-value? 이게 뭔지!! 모르시겠다구요? 아래 내용 살펴봐주세요!

1. 가설 설정
통계 검정을 할 땐, 사전에 가설 (귀무가설과 대립가설)을 아래와 같이 정의합니다.
내가 무엇을 확인하기 위해 통계 검정을 하는지 기준이 있어야 하니까요!
귀무가설 : 설정한 가설이 진실할 확률이 극히 적어 처음부터 버릴 것이 예상되는 가설
대립가설 : 연구자가 입증되기를 기대하는 내용
쉽게 말하면, 귀무가설은 지금까지 우리가 알고 있던 사실이고, 대립가설은 우리가 새롭게 입증하고자 하는 사실을 의미한다고 보면 됩니다!
사실 우리는 귀무가설이 기각되길 바라고 실험을 진행하는거죠!
예를 들면, 제가 "연애 기간과 연애 만족도는 관련이 있다"를 새롭게 입증하고 싶다면,
- 귀무가설 : 연애 기간과 연애 만족도는 관련이 없다
- 대립가설 : 연애 기간과 연애 만족도는 관련이 있다
라고 가설을 수립합니다.
통계 분석에서는 이 귀무가설을 기각할 것인지, 기각하지 않는지에 대해 검정합니다.
(귀무가설은 채택될 수 없고, 기각 여부만 결정합니다)
귀무가설을 기각한다 = 통계적으로 유의적이다
귀무가설을 기각하지 않는다 = 통계적으로 유의적이지 않다.
2. 유의 수준 결정
통계 결과를 보면 p-value (유의 확률), α (유의 수준)이 있는데요
α (유의 수준) : 귀무가설이 참임에도 기각할 확률의 허용한계로, 귀무가설 기각 여부를 결정하는데 기준이되는 확률
귀무가설이 옳음에도 대립가설을 택하는 오류 (1종 오류) 를 범할 확률의 허용 한계입니다.
즉, 어던 사건이 일어날 확률이 유의수준보다 작으면, 그 사건은 유의미한 사건 (희귀한 사건)으로 여기겠다는 의미입니다.
유의수준은 연구자가 주관적으로 정하는데, 관례적으로 0.05을 사용합니다.
p-value (유의 확률) : 귀무가설이 참임에도 기각할 확률로, 어떤 사건이 일어날 희박한 확률
그러니까, 귀무가설을 전제로 했을 때 어떤 통계량 값을 얻을 확률이, 유의 수준보다 작을 경우 "통계적으로 유의미하다"라고 표현합니다.
따라서,
p-value <= α (0.05) : 귀무가설을 기각하고 대립가설을 지지. "통계적으로 유의미하다"
p-value > α (0.05) : 귀무가설을 기각하지 못하고, 대립가설을 지지하지 못한다 "통계적으로 유의미하다고 보기 어렵다"
이라고 해석합니다!
귀무가설과 대립가설, 유의 확률과 유의 수준 이해되셨나요?!
그럼 다음 포스팅에선 t-test 분석 절차에 대해 설명드릴게요~

'그녀의 일' 카테고리의 다른 글
[SQL] 리텐션 구하기 | N-Day Retention, Range Retention, Rolling Retention (0) | 2023.04.25 |
---|---|
T-Test 검정 | 일표본T검정, 독립표본T검정, 대응표본T검정 (Python) (0) | 2023.04.07 |
Swtichback test란? (0) | 2023.03.23 |
Apach Kafka 란? | producer, consumer, topic, partition 용어 설명 (0) | 2023.03.16 |
머신러닝 프로세스 한 번에 처리하기 | Pipeline, make_pipeline (0) | 2023.03.09 |