본문 바로가기

데비의 기록/DA 책리뷰

[통계학입문] 표본평균의 중요성

✔ 모집단에서 충분할 정도로 많이 반복해 데이터 관측을 한 후 히스토그램을 작성하면, 그 히스토그램은 모집단과 일치한다 (= '랜덤 샘플링 가정') 

 

✔ 즉, 관측을 미친듯이 하면 모집단의 모습을 선명하게 파악 가능하다 

 

우리의 목표 : 적은 관측으로 최대한 모집단 모습을 추측하는 것

 

우린 모평균값을 알면, 모집단의 데이터는 대략 모평균 주변에 분포하는 사실을 알 수 있다.

 

 μ('뮤') = 모집단의 평균값 = "모평균" 

 

하지만 모평균값을 알기는 어렵지.

왜? 모집단의 모든 수치를 아는 경우가 적으니까! 

 

🤷🏻‍♀️ 그럼 우린 뭘해야할까? 

🙋🏻‍♀️ 관측 데이터로 모평균을 파악해야지! 

 

Q. 모평균만 가지고 모집단의 분포의 모습을 잘 파악했다고 볼 수 있나?

A. 아니다. 표준편차를 알아야 모집단에 '어떤식으로 데이터가 퍼져있는지'를 알 수 있다. 

 

다시 복습하자면, 

 

 ✅ 편차 = 데이터 - 평균값

 ✅ 편차들을 제곱평균한 값 = 분산 (음수값이 나올 수 있기때문에, 산술평균이 아닌 제곱평균으로 계산) 

 ✅ 분산에 루트 씌운 값 = 표준편차

 💡 σ('시그마') = 모집단의 표준편차 = 모집단의 데이터가 흩어져있는 상태를 나타내는 통계량 

 💡 σ² = 모분산 

 

 

🔻 문제풀어보기

수치 11 9 4 1
상대도수 0.3 0.3 0.2 0.2

 

(1) 위 모집단의 모평균을 구하시오 

더보기

11*0.3 + 9*0.3 + 4*0.2 + 1*0.2 

 = 3.3 + 2.7 + 0.8 + 0.2 

= 7 

(2) 편차를 구하고 제곱해 상대도수를 곱한 후 합해라 

수치 편차 편차의 제곱 상대도수  편차제곱 * 상대도수
11     0.3  
9     0.3  
4     0.2  
1     0.2  
더보기
수치 편차 편차의 제곱 상대도수  편차제곱 * 상대도수
11 4 16 0.3 4.8
9 2 4 0.3 1.2
4 -3 9 0.2 1.8
1 -6 36 0.2 7.2

(3) 모분산 및 모표준편차를 구하시오 

더보기

모분산 = 15 

모표준편차 = 3.87

 

 

표본의 평균 

| 여러 데이터의 평균값은 한 데이터의 평균값보다 모평균에 가깝다. 

1. 관측된 하나의 데이터로 뭘 말할 수 있나? 

 

우리가 모집단의 분포를 정확히 알기는 힘들다. 고작 몇개의 데이터만 관찰 가능하지.

 

그럼 그 몇개의 관측된 데이터로 우린 뭘 알 수 있을까?

"모평균(μ)은 관측된 데이터(x)와 가까울 것 같다" 라고 추정 할 수 있다. 

 

또 운좋게 모표준편차(σ)를 알아냈다면, 모평균을 자세히 추정가능하다.

 

🤷🏻‍♀️ 어떻게? 

 

🙋🏻‍♀️ 

"많은 데이터(약 95%)는 평균값에서 표준편차의 2배 이내 범위에 있다" 를 알기 때문!

이 말은 "하나의 관측 데이터(x)는 평균값에서 표준편차X2 범위 안에 있다" 란 말이고, 

이걸 좀 다르게 생각하면 

"모평균은 관측 데이터(x)에서 표준편차*2 범위 내에 있다" 로 생각할 수 있다.

 

💡 즉, 관측된 하나의 데이터로 모평균의 범위를 추정할 수 있다는 말. 

2. 표본평균을 구하는 이유 

 

레퍼런스가 1개일 때보다 10개일 때, 우리는 일을 더 수월하게 한다. 

마찬가지로, 한개의 데이터보다 여러개의 데이터를 우리가 관찰했을 때, 모평균(μ)을 더 정확하게 추정할 수 있다.

 

💡 즉, 표본평균을 구하는 이유 = 평균 구간을 더 정확히 추정하려고

 

다시 한번 정의하자면,

 

✅ 모평균(μ) = 모집단의 평균

표본평균(X바)  = 관측된 데이터들의 산술평균 = 관측된 데이터 합 / 관측 데이터 수 

 

대수의 법칙에 의하면 관측된 데이터들이 많을때 그 평균은 모집단의 평균과 가까울 가능성이 높아진다함.

대수의 법칙 
" n개의 데이터를 관측하고, 그 표본평균을 만든다. n이 크면 클수록 표본평균은 모평균에 가까운 수치를 구할 가능성이 커진다."

 

관측 데이터가 늘어나면 0000은 좁아진다

1. 정규분포에서 보이는 표본평균의 성질

✔ 모집단의 분포와 표본평균의 분포는 다르다. 

 

Q. 모집단의 분포와 표본평균의 분포가 같을 경우는 ? 

A. 모집단이 정규분포를 하고 있는 "정규모집단"일 경우

 

💡 즉, 정규분포에서 표본평균의 분포도 정규분포이다.

 

[정규분포에서] 

 ✅ 모집단의 평균 = μ , 표준편차  = σ 

 ✅ 표본평균의 평균 = μ, 표준편차 =  σ / 루트n

 

→ 평균값 근처의 데이터가 더 높은 확률로 관측되고, 평균값에서 먼 데이터는 잘 관측되지 X

 

2. 정규모집단에서의 표본평균에 대한 95% 예언적중구간

🙋🏻‍♀️ 정규모집단에서 n개의 데이터를 관측할 경우, 이 표본평균에 대해 어느 구간을 에언해야 95% 정확할까? 

n개의 표본평균의
✅ 평균 : 모평균
✅ 표준편차 = 모표준편차/루트 n

이걸 식에 대입해 보면

 

표본평균을 만드는 개수가 늘어날수록 예언하는 구간(저 식의 결과값)이 좁아진다.

💡 즉, 관측한 데이터 개수가 많으면 많을수로 정확도 높은 예언이 가능하다. 그래서 표본평균을 이용하는 것!