2024.11.14- 통계학 3주차

카테고리 없음

2024.11.14- 통계학 3주차

['팀애디'] 변서연 2024. 11. 18. 19:24

유의성 검정

- 각각의 유의성 검정 방법들 이해, 특징 파악

- 신뢰구간과 가설검정의 관계에 대해 설명할 수 있다

- 1종오류, 2종 오류

3.1 A/B 검정

- A/B 검정은 두 버전(A/B)중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법

- 마케팅, 웹사이트 디자인 등에서 많이 사용됨.

- 사용자들을 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후, 반응을 비교

- 일반적으로 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 비교

* 목적

두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지 확인

* ttest_ind - 독립표본 t-검정

- 두 개의 독립된 집단 간 평균의 차이가 유의미한지 평가

- 두 집단의 데이터 배열을 입력으로 받아서 t-통계량과 p-값을 반환

* t- 통계량 (statistic)

- t-검정 통계량, 두 집단 간 평균 차이의 크기와 방향을 나타냄

* p-값 (pvalue)

- p-값은 귀무 가설이 참일 때, 현재 데이터보다 극단적인 결과가 나올 확률

- 이 값이 유의수준보다 작으면 귀무 가설 기각, 이 값이 유의수준보다 크면 귀무 가설 채택

3.2 가설검정

- 데이터가 특정 가설을 지지하는지 검정하는게 포인트

- 표본 데이터를 통해 모집단의 가설을 검증하는 과정

- 귀무가설과 대립가설을 설정하고, 귀무가설을 기각할지를 결정

- 데이터 분석시 두가지 전략을 취할 수 있음

확증적 자료분석 - 미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석
탐색적 자료분석(EDA) - 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것

* 단계

귀무가설과 대립가설 설정
유의수준 결정
검정통계량 계산
p-값과 유의수준 비교
결론 도출

* 통계적 유의성과 p값

통계적 유의성
- 통계적 유의성은 결과가 우연히 발생한 것이 아니라 어떤 효과가 실제로 존재함을 나타내는 지표
- p값은 귀무 가설이 참일 경우 관찰된 통계치가 나올 확률을 의미
- 일반적으로 p값이 0.05 미만이면 결과를 통계적으로 유의하다고 판단
p - 값
- 귀무가설이 참일 때, 관찰된 결과 이상으로 극단적인 결과가 나올 확률
- 일반적으로 p-값이 유의수준보다 작으면 귀무가설을 기각
- 유의수준으로 많이 사용하는 값이 0.05

* 신뢰구간과 가설검정의 관계

- 신뢰구간과 가설검정

둘 다 데이터의 모수(ex.평균)에 대한 정보를 구하고자 하는 것이지만 접근 방식이 다름

신뢰구간
- 특정 모수가 포함될 범위를 제공
  - 신뢰구간
    - 모집단의 평균이 특정 범위 내에 있을 것이라는 확률
    - 일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미
    - 만약 어떤 설문조사에서 평균 만족도가 75점, 신뢰구간이 70점에서 80점이라면 , 우리는 95% 확률로 실제 평균 만족도가 이 범위 내에 있다고 말할 수 있다.
  - 가설검정 - 모수가 특정 값과 같은지 다른지 테스트

* 가설검정의 실제 적용

가설을 설정하여 검증
- 새로운 약물이 기존 약물보다 효과가 있는지 검정
- 이 때 새로운 약물은 기존 약물과 큰 차이가 없다는 것이 귀무가설
- 대립가설은 새로운 약물이 기존 약물과 대비해 효과가 있다는 것!

3.3 t검정

1) t검정이란?

t 검정
- t검정은 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법
- 독립표본 t검정과 대응표본 t검정으로 나뉨
독립표본 t검정 - 두 독립된 그룹의 평균을 비교
대응표본 t검정 - 동일한 그룹의 사전/사후 평균을 비교

2) 가설검정이 실제로 어떻게 적용?

p-값을 통한 유의성 확인
- 두 클래스의 시험 성적 비교(독립표본 t검정)
- 다이어트 전후 체중 비교(대응표본 t검정)

3.4 다중검정

- 여러 가설을 동시에 검정! 하지만 오류가 발생할 수 있음

1) 다중검정이란 무엇인가?

다중검정
- 여러 가설을 동시에 검정할 때 발생하는 문제
- 각 검정마다 유의수준을 조정하지 않으면 1종 오류( 귀무가설이 참인데 기각하는 오류) 발생 확률이 증가
- 1종 오류가 무엇인지랑 왜 다중검정시 발생확률이 증가하는지는 밑에서 다시 설명! 지금은 어떤 오류가 발생할 수 있다는 정도로 이해!
보정 방법
- 본페로니 검정, 튜키 보정 ,던넷 보정, 윌리엄스 보정 등이 있음

3.5 카이제곱검정

1) 카이제곱검정이란?

카이제곱검정
- 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)하거나
- 두 범주형 변수 간의 독립성을 검정(독립성 검정)
적합도 검정
- 관찰된 분포와 기대된 분포가 일치하는지 검정
- p값이 높으면 데이터가 귀무 가설에 잘 맞음. 즉, 관찰된 데이터와 귀무 가설이 적합
- p값이 낮으면 데이터가 귀무 가설에 잘 맞지 않음. 즉, 관찰된 데이터와 귀무 가설이 부적합
독립성 검정
- 두 범주형 변수 간의 독립성을 검정
- p값이 높으면 두 변수 간의 관계가 연관성이 없음 -> 독립성이 있음
- p값이 낮으면 두 변수 간의 관계가 연관성이있음 -> 독립성이 없음

2) 카이제곱검정은 어떻게 적용되어질까?

범주형 데이터의 분포 확인 및 독립성 확인을 위해 사용
- 주사위의 각 면이 동일한 확률로 나오는지 검정(적합도 검정)
- 성별과 직업 만족도 간의 독립성 검정(독립성 검정)

* stats.chisquare 함수

- 카이제곱 적합도 검정을 수행하여 관찰된 빈도분포가 기대된 빈도 분포와 일치하는지 평가.

- 주로 단일 표본에 대해 관찰된 빈도가 특정 이론적 분포(ex.균등 분포)와 일치하는지 확인하는 데 사용됨

- 반환 값

- chi2: 카이제곱 통계량

- p: p-값. 관찰된 데이터가 귀무 가설 하에서 발생할 확률

3.6 제 1종 오류, 제 2종 오류

제 1종 오류
- 귀무가설이 참인데 기각하는 오류
- 잘못된 긍정을 의미 ( 아무런 영향이 없는데 영향이 있다고 하는 것)
- 유의수준을 경계로 귀무가설을 기각하기 때문에 제 1종 오류가 유의수준만큼 발생
- if 유의수준 0.05, 100번 중 5번 정도 일어날 수 있는 제 1종 오류는 감수하겠다는 것
다중 검정시 제 1종 오류가 증가하는 이유?
- 하나의 검정에서 제 1종 오류가 발생하지 않을 확률은 1- 유의수준
- m개의 독립된 검정에서 제1종 오류가 전혀 발생하지 않을 확률은 (1-유의수준)^m
- 따라서 , m개의 검정에서 하나 이상의 제 1종오류가 발생할 확률 1-(1-유의수준)^m
- 이 값은 m이 커질수록 빠르게 증가 ex) 유의수준=0.05, m=10인 경우
- 1-(1-0.05)^10 = 약 0.401
- 즉 ,10개의 가설을 동시에 검정할 때, 하나 이상의 가서에서 제 1종 오류가 발생할 확률이 약 40.1%이므로 개별검증에서 발생하는 오류율(5%)보다 높다
제 2종 오류
- 귀무가설이 거짓인데 기각하지 않는 오류
- 잘못된 부정을 의미 ( 영향이 있는데 영향이 없다고 하는 것)