[통계학입문] 표본평균의 중요성

✔ 모집단에서 충분할 정도로 많이 반복해 데이터 관측을 한 후 히스토그램을 작성하면, 그 히스토그램은 모집단과 일치한다 (= '랜덤 샘플링 가정')

✔ 즉, 관측을 미친듯이 하면 모집단의 모습을 선명하게 파악 가능하다

우리의 목표 : 적은 관측으로 최대한 모집단 모습을 추측하는 것

우린 모평균값을 알면, 모집단의 데이터는 대략 모평균 주변에 분포하는 사실을 알 수 있다.

✅ μ('뮤') = 모집단의 평균값 = "모평균"

하지만 모평균값을 알기는 어렵지.

왜? 모집단의 모든 수치를 아는 경우가 적으니까!

🤷🏻‍♀️ 그럼 우린 뭘해야할까?

🙋🏻‍♀️ 관측 데이터로 모평균을 파악해야지!

Q. 모평균만 가지고 모집단의 분포의 모습을 잘 파악했다고 볼 수 있나?

A. 아니다. 표준편차를 알아야 모집단에 '어떤식으로 데이터가 퍼져있는지'를 알 수 있다.

다시 복습하자면,

✅ 편차 = 데이터 - 평균값

✅ 편차들을 제곱평균한 값 = 분산 (음수값이 나올 수 있기때문에, 산술평균이 아닌 제곱평균으로 계산)

✅ 분산에 루트 씌운 값 = 표준편차

💡 σ('시그마') = 모집단의 표준편차 = 모집단의 데이터가 흩어져있는 상태를 나타내는 통계량

💡 σ² = 모분산

🔻 문제풀어보기

수치	11	9	4	1
상대도수	0.3	0.3	0.2	0.2

(1) 위 모집단의 모평균을 구하시오

11*0.3 + 9*0.3 + 4*0.2 + 1*0.2

= 3.3 + 2.7 + 0.8 + 0.2

= 7

(2) 편차를 구하고 제곱해 상대도수를 곱한 후 합해라

수치	편차	편차의 제곱	상대도수	편차제곱 * 상대도수
11			0.3
9			0.3
4			0.2
1			0.2

수치	편차	편차의 제곱	상대도수	편차제곱 * 상대도수
11	4	16	0.3	4.8
9	2	4	0.3	1.2
4	-3	9	0.2	1.8
1	-6	36	0.2	7.2

(3) 모분산 및 모표준편차를 구하시오

모분산 = 15

모표준편차 = 3.87

표본의 평균

| 여러 데이터의 평균값은 한 데이터의 평균값보다 모평균에 가깝다.

1. 관측된 하나의 데이터로 뭘 말할 수 있나?

우리가 모집단의 분포를 정확히 알기는 힘들다. 고작 몇개의 데이터만 관찰 가능하지.

그럼 그 몇개의 관측된 데이터로 우린 뭘 알 수 있을까?

"모평균(μ)은 관측된 데이터(x)와 가까울 것 같다" 라고 추정 할 수 있다.

또 운좋게 모표준편차(σ)를 알아냈다면, 모평균을 자세히 추정가능하다.

🤷🏻‍♀️ 어떻게?

🙋🏻‍♀️

"많은 데이터(약 95%)는 평균값에서 표준편차의 2배 이내 범위에 있다" 를 알기 때문!

이 말은 "하나의 관측 데이터(x)는 평균값에서 표준편차X2 범위 안에 있다" 란 말이고,

이걸 좀 다르게 생각하면

"모평균은 관측 데이터(x)에서 표준편차*2 범위 내에 있다" 로 생각할 수 있다.

💡 즉, 관측된 하나의 데이터로 모평균의 범위를 추정할 수 있다는 말.

2. 표본평균을 구하는 이유

레퍼런스가 1개일 때보다 10개일 때, 우리는 일을 더 수월하게 한다.

마찬가지로, 한개의 데이터보다 여러개의 데이터를 우리가 관찰했을 때, 모평균(μ)을 더 정확하게 추정할 수 있다.

💡 즉, 표본평균을 구하는 이유 = 평균 구간을 더 정확히 추정하려고

다시 한번 정의하자면,

✅ 모평균(μ) = 모집단의 평균

✅ 표본평균(X바) = 관측된 데이터들의 산술평균 = 관측된 데이터 합 / 관측 데이터 수

대수의 법칙에 의하면 관측된 데이터들이 많을때 그 평균은 모집단의 평균과 가까울 가능성이 높아진다함.

대수의 법칙
" n개의 데이터를 관측하고, 그 표본평균을 만든다. n이 크면 클수록 표본평균은 모평균에 가까운 수치를 구할 가능성이 커진다."

관측 데이터가 늘어나면 0000은 좁아진다

1. 정규분포에서 보이는 표본평균의 성질

✔ 모집단의 분포와 표본평균의 분포는 다르다.

Q. 모집단의 분포와 표본평균의 분포가 같을 경우는 ?

A. 모집단이 정규분포를 하고 있는 "정규모집단"일 경우

💡 즉, 정규분포에서 표본평균의 분포도 정규분포이다.

[정규분포에서]

✅ 모집단의 평균 = μ , 표준편차 = σ

✅ 표본평균의 평균 = μ, 표준편차 = σ / 루트n

→ 평균값 근처의 데이터가 더 높은 확률로 관측되고, 평균값에서 먼 데이터는 잘 관측되지 X

2. 정규모집단에서의 표본평균에 대한 95% 예언적중구간

🙋🏻‍♀️ 정규모집단에서 n개의 데이터를 관측할 경우, 이 표본평균에 대해 어느 구간을 에언해야 95% 정확할까?

n개의 표본평균의
✅ 평균 : 모평균
✅ 표준편차 = 모표준편차/루트 n

이걸 식에 대입해 보면

✔ 표본평균을 만드는 개수가 늘어날수록 예언하는 구간(저 식의 결과값)이 좁아진다.

💡 즉, 관측한 데이터 개수가 많으면 많을수로 정확도 높은 예언이 가능하다. 그래서 표본평균을 이용하는 것!

저작자표시 (새창열림)

'데비의 기록 > DA 책리뷰' 카테고리의 다른 글

[통계학입문] 모분산 추정하기 - 카이제곱분포 이용 (0)	2023.03.10
[통계학입문]표본평균을 이용해 모평균 추정하는 방법 (0)	2023.03.08
[통계학입문] 정규분포 , 가설검정, 구간추정 (0)	2023.03.06
[통계] 표준편차 (0)	2023.03.01
[통계] 도수분포표와 히스토그램 그리고 평균값 (0)	2023.02.28

데비의 DA성장기록

[통계학입문] 표본평균의 중요성

표본의 평균

1. 관측된 하나의 데이터로 뭘 말할 수 있나?

2. 표본평균을 구하는 이유

관측 데이터가 늘어나면 0000은 좁아진다

1. 정규분포에서 보이는 표본평균의 성질

2. 정규모집단에서의 표본평균에 대한 95% 예언적중구간

'데비의 기록 > DA 책리뷰' 카테고리의 다른 글

티스토리툴바

[통계학입문] 표본평균의 중요성

표본의 평균

1. 관측된 하나의 데이터로 뭘 말할 수 있나?

2. 표본평균을 구하는 이유

관측 데이터가 늘어나면 0000은 좁아진다

1. 정규분포에서 보이는 표본평균의 성질

2. 정규모집단에서의 표본평균에 대한 95% 예언적중구간

'데비의 기록 > DA 책리뷰' 카테고리의 다른 글

'데비의 기록/DA 책리뷰' Related Articles

티스토리툴바