Skip to Content
Cấp 3 (Lớp 10-12)Lớp 11Chương 5: Thống kê và Xác suất

Chương 5: Một số yếu tố Thống kê và Xác suất

Nội dung mở rộng! Thống kê ghép nhóm áp dụng cho dữ liệu lớn khi cần phân chia thành các nhóm để tính toán.

Liên hệ Đại học - Data Science & Machine Learning:

Thống kê là nền tảng cốt lõi của Data Science:

Khái niệm thống kêỨng dụng ML/AI
Trung bìnhFeature centering, normalization
Phương sai/Độ lệch chuẩnStandardization: z=xμσz = \frac{x - \mu}{\sigma}
Histogram (ghép nhóm)Data visualization, outlier detection
Mode, MedianRobust estimators, data imputation

Tại sao cần chuẩn hóa dữ liệu?

  • ML models (Neural Networks, SVM) hoạt động tốt hơn khi features có cùng scale
  • Gradient Descent hội tụ nhanh hơn với normalized features

Mục tiêu học tập

Sau khi hoàn thành chương này, bạn sẽ:

  • Lập được bảng phân bố tần số ghép nhóm
  • Tính các số đặc trưng cho mẫu số liệu ghép nhóm
  • Áp dụng trong thực tế khi xử lý số liệu lớn

Phần 1: Bảng phân bố tần số ghép nhóm

1.1. Khi nào cần ghép nhóm?

  • Mẫu số liệu có nhiều giá trị khác nhau (> 20-30 giá trị)
  • Dữ liệu liên tục (chiều cao, cân nặng, điểm số)
  • Cần tóm tắt dữ liệu để dễ phân tích

1.2. Cách lập bảng

Bước 1: Xác định biên độ mẫu R=xmaxxminR = x_{max} - x_{min}

Bước 2: Chọn số nhóm kk (thường 5-15 nhóm)

Bước 3: Tính độ rộng mỗi nhóm: h=Rkh = \frac{R}{k}

Bước 4: Xác định các nhóm: [a1,a2),[a2,a3),...,[ak,ak+1][a_1, a_2), [a_2, a_3), ..., [a_k, a_{k+1}]

Bước 5: Đếm tần số mỗi nhóm

1.3. Ví dụ

NhómGiá trị đại diệnTần số nin_iTần suất
[140, 150)145510%
[150, 160)1551530%
[160, 170)1652040%
[170, 180]1751020%
Tổng50100%

Biểu đồ histogram dữ liệu ghép nhóm:

Tần sốĐiểm24685466788894Biểu đồ cột tần số điểm kiểm tra

Giải thích biểu đồ: Histogram cho thấy phân bố tần số theo nhóm. Cột cao nhất ở nhóm [160, 170) cho thấy đây là nhóm có tần số cao nhất (nhóm mốt).


Phần 2: Số trung bình của mẫu ghép nhóm

2.1. Công thức

xˉ=i=1knicin\bar{x} = \frac{\sum_{i=1}^{k} n_i \cdot c_i}{n}

Trong đó:

  • cic_i: giá trị đại diện của nhóm thứ ii (trung điểm của khoảng)
  • nin_i: tần số của nhóm thứ ii
  • nn: tổng số phần tử

2.2. Ví dụ tính toán

Từ bảng ở phần 1.3:

xˉ=5×145+15×155+20×165+10×17550\bar{x} = \frac{5 \times 145 + 15 \times 155 + 20 \times 165 + 10 \times 175}{50}

=725+2325+3300+175050=810050=162= \frac{725 + 2325 + 3300 + 1750}{50} = \frac{8100}{50} = 162


Phần 3: Phương sai và độ lệch chuẩn ghép nhóm

3.1. Phương sai

s2=i=1kni(cixˉ)2ns^2 = \frac{\sum_{i=1}^{k} n_i (c_i - \bar{x})^2}{n}

hoặc công thức tính nhanh:

s2=i=1knici2nxˉ2s^2 = \frac{\sum_{i=1}^{k} n_i c_i^2}{n} - \bar{x}^2

3.2. Độ lệch chuẩn

s=s2s = \sqrt{s^2}

3.3. Ví dụ tính toán

s2=5(145162)2+15(155162)2+20(165162)2+10(175162)250s^2 = \frac{5(145-162)^2 + 15(155-162)^2 + 20(165-162)^2 + 10(175-162)^2}{50}

=5(289)+15(49)+20(9)+10(169)50=1445+735+180+169050=81= \frac{5(289) + 15(49) + 20(9) + 10(169)}{50} = \frac{1445 + 735 + 180 + 1690}{50} = 81

s=81=9s = \sqrt{81} = 9

Hình minh họa phân phối chuẩn và độ lệch chuẩn:

μ (trung bình)μ-σμ+σ68.27%Phân phối chuẩn (Normal Distribution)σ = độ lệch chuẩn

Giải thích: Đường cong chuông (phân phối chuẩn) cho thấy ý nghĩa của độ lệch chuẩn: ~68% dữ liệu nằm trong xˉ±s\bar{x} \pm s, ~95% trong xˉ±2s\bar{x} \pm 2s. Độ lệch chuẩn nhỏ → dữ liệu tập trung.


Phần 4: Mốt và trung vị ghép nhóm

4.1. Mốt (Mode)

Nhóm mốt là nhóm có tần số lớn nhất.

Mo=L+d1d1+d2×hMo = L + \frac{d_1}{d_1 + d_2} \times h

Trong đó:

  • LL: biên dưới của nhóm mốt
  • d1=nMonMo1d_1 = n_{Mo} - n_{Mo-1} (hiệu với nhóm trước)
  • d2=nMonMo+1d_2 = n_{Mo} - n_{Mo+1} (hiệu với nhóm sau)
  • hh: độ rộng nhóm

4.2. Trung vị (Median)

Me=L+n2FfMe×hMe = L + \frac{\frac{n}{2} - F}{f_{Me}} \times h

Trong đó:

  • LL: biên dưới của nhóm chứa trung vị
  • FF: tần số tích lũy đến nhóm trước
  • fMef_{Me}: tần số của nhóm chứa trung vị

Bài tập mẫu có lời giải

Bài 1: Lập bảng và tính trung bình

Đề bài: Điểm kiểm tra của 40 học sinh: 2 điểm 4, 5 điểm 5, 12 điểm 6, 10 điểm 7, 8 điểm 8, 3 điểm 9. Ghép thành 3 nhóm [4,6), [6,8), [8,10] và tính điểm trung bình.

Lời giải:

NhómĐại diệnTần số
[4, 6)52 + 5 = 7
[6, 8)712 + 10 = 22
[8, 10]98 + 3 = 11

xˉ=7×5+22×7+11×940=35+154+9940=28840=7.2\bar{x} = \frac{7 \times 5 + 22 \times 7 + 11 \times 9}{40} = \frac{35 + 154 + 99}{40} = \frac{288}{40} = 7.2


Bài 2: Tính phương sai

Đề bài: Từ bài 1, tính phương sai và độ lệch chuẩn.

Lời giải:

s2=7(57.2)2+22(77.2)2+11(97.2)240s^2 = \frac{7(5-7.2)^2 + 22(7-7.2)^2 + 11(9-7.2)^2}{40}

=7(4.84)+22(0.04)+11(3.24)40=33.88+0.88+35.6440=1.76= \frac{7(4.84) + 22(0.04) + 11(3.24)}{40} = \frac{33.88 + 0.88 + 35.64}{40} = 1.76

s=1.761.33s = \sqrt{1.76} \approx 1.33

Lỗi thường gặp khi tính thống kê ghép nhóm:

  1. Dùng biên thay vì trung điểm: Giá trị đại diện cic_itrung điểm khoảng, ví dụ [140, 150) → ci=145c_i = 145, KHÔNG phải 140 hay 150
  2. Quên bình phương trong phương sai: s2=ni(cixˉ)2ns^2 = \frac{\sum n_i(c_i - \bar{x})^2}{n}, nếu quên bình phương sẽ ra 0!
  3. Nhầm nn tổng với kk số nhóm: Mẫu số là tổng số phần tử nn, không phải số nhóm kk

Bài tập tự luyện

Bài 1

Chiều cao của 50 học sinh được ghép nhóm như sau:

Nhóm (cm)[145,150)[150,155)[155,160)[160,165)[165,170]
Tần số41018126

Tính chiều cao trung bình, phương sai và độ lệch chuẩn.

Bài 2

Xác định nhóm mốt và tính mốt từ bảng phân bố ở bài 1.


Tiếp tục với phần Xác suất nâng cao bên dưới!


Phần 5: Biến cố hợp và Biến cố giao

Khi nào dùng Hợp / Giao?

Phép toánKý hiệuÝ nghĩaTừ khóa
HợpABA \cup BA hoặc B xảy ra”hoặc”, “ít nhất”
GiaoABA \cap BA B cùng xảy ra”và”, “đồng thời”

5.1. Biến cố hợp (Union)

Định nghĩa: Biến cố “A hoặc B xảy ra” (ít nhất một trong hai) gọi là biến cố hợp.

Ký hiệu: ABA \cup B

Ví dụ: Gieo xúc xắc: AA = “số chẵn”, BB = “số > 4”

  • ABA \cup B = 6

5.2. Biến cố giao (Intersection)

Định nghĩa: Biến cố “A B cùng xảy ra” gọi là biến cố giao.

Ký hiệu: ABA \cap B

Ví dụ: ABA \cap B = 6 (vừa chẵn vừa lớn hơn 4)

5.3. Biến cố đối (Complement)

P(Aˉ)=1P(A)P(\bar{A}) = 1 - P(A)

Mẹo: “Ít nhất 1” = 1P(khoˆng coˊ)1 - P(\text{không có})


Phần 6: Công thức Cộng xác suất

P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A \cap B)

Nếu A và B xung khắc (AB=A \cap B = \emptyset): P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)


Phần 7: Biến cố độc lập

Định nghĩa: A và B độc lập khi việc xảy ra biến cố này không ảnh hưởng đến biến cố kia.

P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B)

Chú ý phân biệt:

  • Xung khắc: AB=A \cap B = \emptyset (không thể cùng xảy ra)
  • Độc lập: P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B) (không ảnh hưởng nhau)

Ví dụ: Xạ thủ A trúng với xác suất 0.8, xạ thủ B trúng với 0.7.

  • Cả hai trúng: P=0.8×0.7=0.56P = 0.8 \times 0.7 = 0.56

Phần 8: Xác suất có điều kiện

P(AB)=P(AB)P(B)P(A|B) = \frac{P(A \cap B)}{P(B)}

Ý nghĩa: Xác suất A xảy ra khi đã biết B xảy ra.


Bài tập Xác suất

Bài 3

Hộp có 5 bi đỏ, 3 bi xanh. Lấy 2 bi. Tính xác suất: a) Cả hai cùng màu
b) Ít nhất 1 bi đỏ

Giải: a) P=C52+C32C82=10+328=1328P = \frac{C_5^2 + C_3^2}{C_8^2} = \frac{10 + 3}{28} = \frac{13}{28}

b) P=1C32C82=1328=2528P = 1 - \frac{C_3^2}{C_8^2} = 1 - \frac{3}{28} = \frac{25}{28}

Bài 4

Xác suất đồng hồ chạy đúng trong 1 năm là 0.9. Với 3 đồng hồ độc lập: a) Cả 3 đúng
b) Ít nhất 1 sai

Giải: a) P=0.93=0.729P = 0.9^3 = 0.729 b) P=10.729=0.271P = 1 - 0.729 = 0.271


Tóm tắt

Công thức quan trọng

Đại lượngCông thức ghép nhóm
Trung bìnhxˉ=nicin\bar{x} = \frac{\sum n_i c_i}{n}
Phương sais2=ni(cixˉ)2ns^2 = \frac{\sum n_i (c_i - \bar{x})^2}{n}
Độ lệch chuẩns=s2s = \sqrt{s^2}
MốtMo=L+d1d1+d2×hMo = L + \frac{d_1}{d_1 + d_2} \times h

Key Points

  • Giá trị đại diện cic_i: Trung điểm của khoảng ghép nhóm
  • Phương sai đo độ phân tán của dữ liệu quanh trung bình
  • Biến cố độc lập: P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B)
  • Biến cố xung khắc: P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)
  • Lưu ý: Công thức cộng xác suất tổng quát phải trừ phần giao

Lỗi thường gặp và cách tránh:

SaiĐúngGiải thích
cic_i = biên dưới của nhómcic_i = trung điểm của nhómĐại diện là giữa khoảng
P(AB)=P(A)+P(B)P(A \cup B) = P(A) + P(B)=P(A)+P(B)P(AB)= P(A) + P(B) - P(A \cap B)Phải trừ phần giao
Độc lập = xung khắcHai khái niệm khác nhauĐộc lập: không ảnh hưởng; Xung khắc: không cùng xảy ra
P(P( ít nhất 1)=P(1)+P(2)+...) = P(1) + P(2) + ...=1P(khoˆng coˊ)= 1 - P(\text{không có})Dùng biến cố đối nhanh hơn

Mẹo nhớ: “Ít nhất = 1 trừ không có”

Hoàn thành Chương V! Chuyển sang Chương VI: Hàm số Mũ và Logarit

Last updated on