✔ 모집단에서 충분할 정도로 많이 반복해 데이터 관측을 한 후 히스토그램을 작성하면, 그 히스토그램은 모집단과 일치한다 (= '랜덤 샘플링 가정')
✔ 즉, 관측을 미친듯이 하면 모집단의 모습을 선명하게 파악 가능하다
우리의 목표 : 적은 관측으로 최대한 모집단 모습을 추측하는 것
우린 모평균값을 알면, 모집단의 데이터는 대략 모평균 주변에 분포하는 사실을 알 수 있다.
✅ μ('뮤') = 모집단의 평균값 = "모평균"
하지만 모평균값을 알기는 어렵지.
왜? 모집단의 모든 수치를 아는 경우가 적으니까!
🤷🏻♀️ 그럼 우린 뭘해야할까?
🙋🏻♀️ 관측 데이터로 모평균을 파악해야지!
Q. 모평균만 가지고 모집단의 분포의 모습을 잘 파악했다고 볼 수 있나?
A. 아니다. 표준편차를 알아야 모집단에 '어떤식으로 데이터가 퍼져있는지'를 알 수 있다.
다시 복습하자면,
✅ 편차 = 데이터 - 평균값
✅ 편차들을 제곱평균한 값 = 분산 (음수값이 나올 수 있기때문에, 산술평균이 아닌 제곱평균으로 계산)
✅ 분산에 루트 씌운 값 = 표준편차
💡 σ('시그마') = 모집단의 표준편차 = 모집단의 데이터가 흩어져있는 상태를 나타내는 통계량
💡 σ² = 모분산
🔻 문제풀어보기
수치 | 11 | 9 | 4 | 1 |
상대도수 | 0.3 | 0.3 | 0.2 | 0.2 |
(1) 위 모집단의 모평균을 구하시오
11*0.3 + 9*0.3 + 4*0.2 + 1*0.2
= 3.3 + 2.7 + 0.8 + 0.2
= 7
(2) 편차를 구하고 제곱해 상대도수를 곱한 후 합해라
수치 | 편차 | 편차의 제곱 | 상대도수 | 편차제곱 * 상대도수 |
11 | 0.3 | |||
9 | 0.3 | |||
4 | 0.2 | |||
1 | 0.2 |
수치 | 편차 | 편차의 제곱 | 상대도수 | 편차제곱 * 상대도수 |
11 | 4 | 16 | 0.3 | 4.8 |
9 | 2 | 4 | 0.3 | 1.2 |
4 | -3 | 9 | 0.2 | 1.8 |
1 | -6 | 36 | 0.2 | 7.2 |
(3) 모분산 및 모표준편차를 구하시오
모분산 = 15
모표준편차 = 3.87
표본의 평균
| 여러 데이터의 평균값은 한 데이터의 평균값보다 모평균에 가깝다.
1. 관측된 하나의 데이터로 뭘 말할 수 있나?
우리가 모집단의 분포를 정확히 알기는 힘들다. 고작 몇개의 데이터만 관찰 가능하지.
그럼 그 몇개의 관측된 데이터로 우린 뭘 알 수 있을까?
"모평균(μ)은 관측된 데이터(x)와 가까울 것 같다" 라고 추정 할 수 있다.
또 운좋게 모표준편차(σ)를 알아냈다면, 모평균을 자세히 추정가능하다.
🤷🏻♀️ 어떻게?
🙋🏻♀️
"많은 데이터(약 95%)는 평균값에서 표준편차의 2배 이내 범위에 있다" 를 알기 때문!
이 말은 "하나의 관측 데이터(x)는 평균값에서 표준편차X2 범위 안에 있다" 란 말이고,
이걸 좀 다르게 생각하면
"모평균은 관측 데이터(x)에서 표준편차*2 범위 내에 있다" 로 생각할 수 있다.
💡 즉, 관측된 하나의 데이터로 모평균의 범위를 추정할 수 있다는 말.
2. 표본평균을 구하는 이유
레퍼런스가 1개일 때보다 10개일 때, 우리는 일을 더 수월하게 한다.
마찬가지로, 한개의 데이터보다 여러개의 데이터를 우리가 관찰했을 때, 모평균(μ)을 더 정확하게 추정할 수 있다.
💡 즉, 표본평균을 구하는 이유 = 평균 구간을 더 정확히 추정하려고
다시 한번 정의하자면,
✅ 모평균(μ) = 모집단의 평균
✅ 표본평균(X바) = 관측된 데이터들의 산술평균 = 관측된 데이터 합 / 관측 데이터 수
대수의 법칙에 의하면 관측된 데이터들이 많을때 그 평균은 모집단의 평균과 가까울 가능성이 높아진다함.
대수의 법칙
" n개의 데이터를 관측하고, 그 표본평균을 만든다. n이 크면 클수록 표본평균은 모평균에 가까운 수치를 구할 가능성이 커진다."
관측 데이터가 늘어나면 0000은 좁아진다
1. 정규분포에서 보이는 표본평균의 성질
✔ 모집단의 분포와 표본평균의 분포는 다르다.
Q. 모집단의 분포와 표본평균의 분포가 같을 경우는 ?
A. 모집단이 정규분포를 하고 있는 "정규모집단"일 경우
💡 즉, 정규분포에서 표본평균의 분포도 정규분포이다.
[정규분포에서]
✅ 모집단의 평균 = μ , 표준편차 = σ
✅ 표본평균의 평균 = μ, 표준편차 = σ / 루트n
→ 평균값 근처의 데이터가 더 높은 확률로 관측되고, 평균값에서 먼 데이터는 잘 관측되지 X
2. 정규모집단에서의 표본평균에 대한 95% 예언적중구간
🙋🏻♀️ 정규모집단에서 n개의 데이터를 관측할 경우, 이 표본평균에 대해 어느 구간을 에언해야 95% 정확할까?
n개의 표본평균의
✅ 평균 : 모평균
✅ 표준편차 = 모표준편차/루트 n
이걸 식에 대입해 보면
✔ 표본평균을 만드는 개수가 늘어날수록 예언하는 구간(저 식의 결과값)이 좁아진다.
💡 즉, 관측한 데이터 개수가 많으면 많을수로 정확도 높은 예언이 가능하다. 그래서 표본평균을 이용하는 것!
'데비의 기록 > DA 책리뷰' 카테고리의 다른 글
[통계학입문] 모분산 추정하기 - 카이제곱분포 이용 (0) | 2023.03.10 |
---|---|
[통계학입문]표본평균을 이용해 모평균 추정하는 방법 (0) | 2023.03.08 |
[통계학입문] 정규분포 , 가설검정, 구간추정 (0) | 2023.03.06 |
[통계] 표준편차 (0) | 2023.03.01 |
[통계] 도수분포표와 히스토그램 그리고 평균값 (0) | 2023.02.28 |