-
기초 통계와 T-통계: 가설 검정과 신뢰구간의 이해다변량 데이터 2023. 5. 7. 14:05
Statisitcs Review
Basic Statistics vs T - Statistics
sample의 크기가 기준이 된다.
sample ≥ 30 : basic 사용 other : T 사용
1. Basic Statistics
1-1. 정의
평균 𝜇와 분산 𝜎2을 가진 정규분포인 모집단으로부터 임의로 n개의 표본을 추출한 경우, 각 표본의 평균값들의 분포입니다. 이 분포는 평균이 𝜇이고 분산이 𝜎2/n인 정규분포를 따르며, 이를 통해 모집단의 평균을 추정하고 검정하는 등의 통계적 추론을 할 수 있습니다.
추출된 sample이 충분히 크다면 우리는 sample mean distribution을 가진다.
1-2. 평균값의 추정
평균값의 추정 - 정규분포를 따르는 모집단에서 크기가 n인 표본을 무작위로 추출하여 표본평균값을 이용하여 모집단의 평균값을 추정한다.
표준정규분포의 확률밀도함수를 이용하여, 𝑃𝑟(−𝑧𝛼Τ2 < 𝑍 < 𝑧𝛼Τ2) = 1 - 𝛼 라는 식을 얻을 수 있습니다. 여기서 𝑧𝛼Τ2는 확률밀도함숫값이 𝛼/2가 되는 값을 의미합니다.
1-3. 신뢰구간
Confidence interval
신뢰구간(Confidence Interval)은 모집단에서 크기가 n인 무작위 표본을 추출하여 계산한 표본평균 𝑥̅을 중심으로, 모집단 평균 𝜇이 존재할 가능성이 높은 구간을 나타내는 통계적 추정량입니다.
예시
2. 가설 검증 : 수학적 가설이 얼마나 타당한지 확률적으로 나타낸 것
예시 : 소금물의 어는점은 0아니다.
1-1. 귀무가설 (null hypothesis) : 소금물의 어는점은 0이다.
1-2. 대립가설 (Alternative hypothesis ) : 소금물의 어는점은 0이 아니다.
실험 : 소금물의 어는점은 0 이 아니다. → 귀무가설로 소금물의 어는점은 0이다. 를 검증한다.
가설 : 소금물의 어는점은 0이 아니다.
-> 귀무가설 : 소금물의 어는점은 0이다.측정된 값들은 -0.31, -0.67, -0.61, -2.07, -1.31, -0.99로, 모평균이 0이 아닌 다른 값일 때 나타나는 것인지를 판단하기 위해 가설검정을 수행하게 됩니다.
위에서는 𝐻 :𝜇=0에 대한 대립가설인 𝐻 :𝜇≠0을 세우고, t-test를 수행하여 p-value가 0.017 이하인 것으로 나타났습니다. 이는 유의 수준 0.05보다 작으므로, 귀무가설을 기각하고 대립가설을 채택할 수 있습니다. 따라서, 이 실험 결과로부터는 소금물의 얼리는 온도가 0이 아닌 다른 값일 가능성이 있다는 결론을 얻을 수 있습니다.
소금물의 어는점이 0이다라는 가설이 유의 수준인 0.05 보다 작게 나타나기 때문에 이 가설은 거부되며 소금물의 어는점은 0이 아니다 라는 결과가 나오게 된다.
Significance
유의 수준은 귀무가설을 기각할 때 사용한다. 일반적으로 1%, 5%를 사용하며, 이 값보다 작은 p-value가 나오면 귀무가설을 기각하게 된다.
위 예시에서는 p-value가 0.034 또는 3.4%로 나왔기 때문에, 유의 수준 5%에서는 귀무가설을 기각할 수 있으며, 따라서 소금물의 얼리는 온도가 0이 아닌 다른 값일 가능성이 있다는 결론을 얻을 수 있다. 그러나 유의수준 1%에서는 귀무가설을 기각할 수 없기 때문에, 이 경우에는 소금물의 얼리는 온도가 0인 가능성도 있기 때문에 결론을 내릴 수 없다.
'다변량 데이터' 카테고리의 다른 글
Linear Regression: Modeling and Evaluation with Advertising Dataset 선형회귀 모델 (0) 2023.05.07 MSE, KNN, 비모수알고리즘, (1) 2023.04.27 다변량 데이터 분석 - population , sample, complexity model , Types of Machine Learing (0) 2023.04.27