Mở đầu

Bài viết này sẽ giải thích về các khái niệm khi tính toản khoảng tin cậy và cách tính khoảng tin cậy (sử dụng python). Các bạn nên đọc trước bài viết về phân phối chuẩn và các tính chất trong phân phối chuẩn
https://blog.vietnamlab.vn/2019/12/20/cac-loai-phan-phoi-va-tinh-chat/

Bài toán thống kê

uc?id=1zn6IzmhxKhu3MEJgA-oXkdzLHeIIoeZP&export=download

Giả sử có một máy bán kẹo có kẹo màu xanh lá cây và các màu khác (xanh, đỏ, vàng, trắng...). Trong máy bán kẹo có 10,000 viên kẹo. Ta muốn bến phần trăm viên kẹo có màu xanh lá cây trong máy bán kẹo là bao nhiêu.
Sẽ mất nhiều tiền để lấy 10,000 viên kẹo trong máy bán để biết số phần trăm viên kẹo có màu xanh lá cay là bao nhiêu. Vì vậy ta lấy mẫu 100 viên kẹo (có thể nhiều lần, không trả lại kẹo vào máy).
Lần thứ nhất mẫu 100 viên kẹo, phần trăm số viên kẹo màu xanh lá cây là 54%.
Dù không sử dụng con số nay, ta lấy 100 viên kẹo lần thứ hai. Giả sử lần thứ hai mẫu 100 viên kẹo, 58% viên kẹo trog mẫu là màu xanh. Để ý lần thứ hai lấy mẫu số phần trăm kẹo màu xanh lá cây khác với lần thứ nhất.

Dựa vào số liệu này, ta có thể tạo ra phân phối mẫu của tỷ lệ của mẫu trông như sau:
uc?id=14Kr8nEsjQOLmNMVKxDPld2KwF3RwvqVs&export=download
Phân phối mẫu của tỷ lệ mẫu sẽ là một phân phối chuẩn. Trong phân phối mẫu của tỷ lệ mẫu, trung bình sẽ là tỷ lệ tổ hợp (con số ta muốn biết). Lần 1
\( \hat{p}=0.54 \) và lần 2 \( \hat{p}=0.58 \) lấy mẫu ta sẽ có tỷ lệ mẫu có thể khác với tỷ lệ tổ hợp.

Câu hỏi của chúng ta là: Xác xuất để tỷ lệ mẫu \( \hat{p}=0.54 \) nằm trong 2 độ lệch chuẩn của phần trăm tổ hợp p là bao nhiêu?

Dựa vào luật 68, 95 99.7, xác xuất tỷ lệ mẫu nằm trong 2 độ lệch chuẩn (\(\sigma\)) của tỷ lệ tổ hợp là 95%.
uc?id=1i3r2_bmHzwTqLxp1Lpx_APL5693yGLGt&export=download

Vậy 95% tỷ lệ mẫu \hat{p}=0.54 nằm trong 2 độ lệch chuẩn của tỷ lệ tổ hợp p. Ta có thể kết luận ngược lại: Xác xuất 95% tỷ lệ tổ hợp sẽ nằm trong \( 2 * \sigma \) của tỷ lệ mẫu \( \hat{p}=0.54 \).

Ta phải tính \( \sigma \) là bao nhiêu. Đúng ra, ta phải tính \( \sigma \) với tỷ lệ tổ hợp p. Nhưng ta không biết tỷ lệ tổ hợp p, vì đây là câu hỏi của bài toán. Ta có thể ước lượng độ lệch chuẩn \( \sigma \) bằng độ sai chuẩn.

uc?id=1Px4uxFCPx8O88OAiSVfF8PLSKiC-RsKn&export=download

Độ sai chuẩn sử dụng tỷ lệ mẫu thay bằng tỷ lệ tổ hợp. Độ sai chuẩn sẽ là:
uc?id=129vVxmjkcAMmmaU5R1cPvWNCp6vjKX80&export=download

Như vậy ta sẽ có các khái niệm sử dụng trong khoảng tin cậy như dưới đây các thông tin dưới đây:
Confidence Level, mức tin cậy: 95%.
Margin of error, giới hạn lỗi: độ sai chuẩn * 2 = 0.05 * 2 = 0.10
Confidence interval, khoảng tin cậy (2 số): tỷ lệ mẫu +- giới hạn lỗi = (0.54 - 0.10, 0.54 + 0.10) = (0.44, 0.64).

Điều này có nghĩa là có xác xuất 95% (mức tin cậy) tỷ lệ tổ hợp sẽ có giá trị nằm trong khoảng tin cậy là (0.44, 0.64). Hay một cách khác, có xác xuất 95% (mức tin cậy) tỷ lệ tổ hợp sẽ có giá trị nằm trong 0.54 (tỷ lệ mẫu) +- 0.10 (giới hạn lỗi)

Khoảng tin cậy

Ta có thể hình dung bài toán trên như sau.

uc?id=149aTpUWdpy7xCUeg5Lveic5ZBz8odiej&export=download
(Vẽ bằng sử dụng link: https://www.khanacademy.org/computer-programming/confidence-intervals-about-a-proportion/6167177771548672)

Một đường gạch có chấm ở giữa là một mẫu có 100 viên kẹo. Chấm là tỷ lệ mẫu. Đường gạch thẳng hai bên là giới hạn lỗi. Giá trị ở đầu và cuối hai đường gạch là khoảng tin cậy.

Thử lấy mẫu 100 viên kẹo 300 lần như trên. Xác xuất khoảng tin cậy của tỷ lệ mẫu bao gồm tỷ lệ tổ hợp sẽ gần bằng 95% (màu đen). 5% khoảng tin cậy sẽ không bao gồm tỷ lệ tổ hợp (đường gạch màu đỏ). Lấy mẫu càng nhiều lần (1000 lần thay bằng 300) thì con số này sẽ càng gần với mức tin cậy là 95% hơn

Bài toán tính khoảng tin cậy

Dựa vào bài toán trên, ta có thể viết công thức tính khoảng tin cậy như sau:
uc?id=1GynPTN5yYAUrHpSS_FUkUvQijlwxIhBI&export=download

Dựa vào công thức trên ta làm bài toán khác để tính khoảng tin cậy
Della có 500 bài hát trong máy điện thoại. Della muốn ước lượng có bao nhiêu bài hát là của nữ ca sĩ. Để làm việc đó, Della lấy một mẫu 50 bài hát bất kỳ. Trong mẫu 50 bài hát, có 20 bài hát của ca sĩ nữ. Hỏi với mức tin cậy là 99%, khoảng tin cậy cho tỷ lệ bài hát của ca sĩ nữ là bao nhiêu?

Giải toán bằng code

  1. Tính thông tin đơn giản
from scipy import stats
from math import sqrt
import matplotlib.pyplot as plt
import numpy as np

# Số dữ liệu trong mẫu
sample_size = 50
# Tính Tỷ lệ mẫu
sample_proportion = 20/sample_size
# Mức tin cậy
confidence_level = 0.99
  1. Tính độ lêch chuẩn
# Tính độ lệch chuẩn cho tỷ lệ mẫu
std_dev = sqrt((sample_proportion * (1 - sample_proportion))/50)
std_dev # 0.06928203230275509
  1. Tính z* (z-score)
upper_probability = (1 - confidence_level)/2
upper_probability # 0.0050000000000000044
# Tính z score bằng diện tích dưới đường cong (xác xuất dữ liệu nằm trong khoảng giá trị trong phân phối chuẩn)
# ppf là hàm ngược của norm cdf (dùng để tính diện tích dưới đường cong từ z-score). Một cách nữa là sử dụng z-table để lấy z-score từ diện tích dưới đường cong (không đề cập trong bài viết này)
z_star =  stats.norm.ppf(1 - upper_probability)
z_star # 2.5758293035489004
  1. Tính giới hạn lỗi
# Tính giới hạn lỗi 
margin_of_error = z_star * std_dev
margin_of_error # 0.17845868901485806
  1. Tính khoảng tin cậy
# Tính khoảng cách tin cậy
confidence_interval = (sample_proportion - margin_of_error, sample_proportion + margin_of_error)
confidence_interval # (0.22154131098514196, 0.5784586890148581)
  1. Kiểm tra kết quả bằng hàm có sẵn
# Kiểm tra khoảng cách tin cậy bằng code có sẵn. Nên sử dụng luôn hàm này khi lập trình thật.
confidence_interval_check = stats.norm.interval(confidence_level, loc=sample_proportion, scale=std_dev)
confidence_interval_check # (0.22154131098514196, 0.5784586890148581)

Kết quả bằng hàm có sẵn giống như ở trên.

  1. Phân tích kết quả

Với khoảng tin cậy gần bằng (0.22, 0.58). Ta có thể tự tin 99% là số bài hát được hát bởi ca sĩ nữ trong điện thoại của Della sẽ có tỷ lệ từ 22% đến 58%.

Kết thúc

Hi vọng các bạn đã hiểu về một số khái niệm sử dụng trong việc tính khoảng tin cậy và cách tính khoảng tin cậy. Chúc các bạn may mắn trong việc áp dụng vào công việc.

Reference

https://www.khanacademy.org/math/ap-statistics/sampling-distribution-ap/what-is-sampling-distribution/v/introduction-to-sampling-distributions?modal=1

https://www.khanacademy.org/computer-programming/confidence-intervals-about-a-proportion/6167177771548672