Chương 5: Một số yếu tố Thống kê và Xác suất
Nội dung mở rộng! Thống kê ghép nhóm áp dụng cho dữ liệu lớn khi cần phân chia thành các nhóm để tính toán.
Liên hệ Đại học - Data Science & Machine Learning:
Thống kê là nền tảng cốt lõi của Data Science:
| Khái niệm thống kê | Ứng dụng ML/AI |
|---|---|
| Trung bình | Feature centering, normalization |
| Phương sai/Độ lệch chuẩn | Standardization: |
| Histogram (ghép nhóm) | Data visualization, outlier detection |
| Mode, Median | Robust estimators, data imputation |
Tại sao cần chuẩn hóa dữ liệu?
- ML models (Neural Networks, SVM) hoạt động tốt hơn khi features có cùng scale
- Gradient Descent hội tụ nhanh hơn với normalized features
Mục tiêu học tập
Sau khi hoàn thành chương này, bạn sẽ:
- Lập được bảng phân bố tần số ghép nhóm
- Tính các số đặc trưng cho mẫu số liệu ghép nhóm
- Áp dụng trong thực tế khi xử lý số liệu lớn
Phần 1: Bảng phân bố tần số ghép nhóm
1.1. Khi nào cần ghép nhóm?
- Mẫu số liệu có nhiều giá trị khác nhau (> 20-30 giá trị)
- Dữ liệu liên tục (chiều cao, cân nặng, điểm số)
- Cần tóm tắt dữ liệu để dễ phân tích
1.2. Cách lập bảng
Bước 1: Xác định biên độ mẫu
Bước 2: Chọn số nhóm (thường 5-15 nhóm)
Bước 3: Tính độ rộng mỗi nhóm:
Bước 4: Xác định các nhóm:
Bước 5: Đếm tần số mỗi nhóm
1.3. Ví dụ
| Nhóm | Giá trị đại diện | Tần số | Tần suất |
|---|---|---|---|
| [140, 150) | 145 | 5 | 10% |
| [150, 160) | 155 | 15 | 30% |
| [160, 170) | 165 | 20 | 40% |
| [170, 180] | 175 | 10 | 20% |
| Tổng | 50 | 100% |
Biểu đồ histogram dữ liệu ghép nhóm:
Giải thích biểu đồ: Histogram cho thấy phân bố tần số theo nhóm. Cột cao nhất ở nhóm [160, 170) cho thấy đây là nhóm có tần số cao nhất (nhóm mốt).
Phần 2: Số trung bình của mẫu ghép nhóm
2.1. Công thức
Trong đó:
- : giá trị đại diện của nhóm thứ (trung điểm của khoảng)
- : tần số của nhóm thứ
- : tổng số phần tử
2.2. Ví dụ tính toán
Từ bảng ở phần 1.3:
Phần 3: Phương sai và độ lệch chuẩn ghép nhóm
3.1. Phương sai
hoặc công thức tính nhanh:
3.2. Độ lệch chuẩn
3.3. Ví dụ tính toán
Hình minh họa phân phối chuẩn và độ lệch chuẩn:
Giải thích: Đường cong chuông (phân phối chuẩn) cho thấy ý nghĩa của độ lệch chuẩn: ~68% dữ liệu nằm trong , ~95% trong . Độ lệch chuẩn nhỏ → dữ liệu tập trung.
Phần 4: Mốt và trung vị ghép nhóm
4.1. Mốt (Mode)
Nhóm mốt là nhóm có tần số lớn nhất.
Trong đó:
- : biên dưới của nhóm mốt
- (hiệu với nhóm trước)
- (hiệu với nhóm sau)
- : độ rộng nhóm
4.2. Trung vị (Median)
Trong đó:
- : biên dưới của nhóm chứa trung vị
- : tần số tích lũy đến nhóm trước
- : tần số của nhóm chứa trung vị
Bài tập mẫu có lời giải
Bài 1: Lập bảng và tính trung bình
Đề bài: Điểm kiểm tra của 40 học sinh: 2 điểm 4, 5 điểm 5, 12 điểm 6, 10 điểm 7, 8 điểm 8, 3 điểm 9. Ghép thành 3 nhóm [4,6), [6,8), [8,10] và tính điểm trung bình.
Lời giải:
| Nhóm | Đại diện | Tần số |
|---|---|---|
| [4, 6) | 5 | 2 + 5 = 7 |
| [6, 8) | 7 | 12 + 10 = 22 |
| [8, 10] | 9 | 8 + 3 = 11 |
Bài 2: Tính phương sai
Đề bài: Từ bài 1, tính phương sai và độ lệch chuẩn.
Lời giải:
Lỗi thường gặp khi tính thống kê ghép nhóm:
- Dùng biên thay vì trung điểm: Giá trị đại diện là trung điểm khoảng, ví dụ [140, 150) → , KHÔNG phải 140 hay 150
- Quên bình phương trong phương sai: , nếu quên bình phương sẽ ra 0!
- Nhầm tổng với số nhóm: Mẫu số là tổng số phần tử , không phải số nhóm
Bài tập tự luyện
Bài 1
Chiều cao của 50 học sinh được ghép nhóm như sau:
| Nhóm (cm) | [145,150) | [150,155) | [155,160) | [160,165) | [165,170] |
|---|---|---|---|---|---|
| Tần số | 4 | 10 | 18 | 12 | 6 |
Tính chiều cao trung bình, phương sai và độ lệch chuẩn.
Bài 2
Xác định nhóm mốt và tính mốt từ bảng phân bố ở bài 1.
Tiếp tục với phần Xác suất nâng cao bên dưới!
Phần 5: Biến cố hợp và Biến cố giao
Khi nào dùng Hợp / Giao?
| Phép toán | Ký hiệu | Ý nghĩa | Từ khóa |
|---|---|---|---|
| Hợp | A hoặc B xảy ra | ”hoặc”, “ít nhất” | |
| Giao | A và B cùng xảy ra | ”và”, “đồng thời” |
5.1. Biến cố hợp (Union)
Định nghĩa: Biến cố “A hoặc B xảy ra” (ít nhất một trong hai) gọi là biến cố hợp.
Ký hiệu:
Ví dụ: Gieo xúc xắc: = “số chẵn”, = “số > 4”
- = 6
5.2. Biến cố giao (Intersection)
Định nghĩa: Biến cố “A và B cùng xảy ra” gọi là biến cố giao.
Ký hiệu:
Ví dụ: = 6 (vừa chẵn vừa lớn hơn 4)
5.3. Biến cố đối (Complement)
Mẹo: “Ít nhất 1” =
Phần 6: Công thức Cộng xác suất
Nếu A và B xung khắc ():
Phần 7: Biến cố độc lập
Định nghĩa: A và B độc lập khi việc xảy ra biến cố này không ảnh hưởng đến biến cố kia.
Chú ý phân biệt:
- Xung khắc: (không thể cùng xảy ra)
- Độc lập: (không ảnh hưởng nhau)
Ví dụ: Xạ thủ A trúng với xác suất 0.8, xạ thủ B trúng với 0.7.
- Cả hai trúng:
Phần 8: Xác suất có điều kiện
Ý nghĩa: Xác suất A xảy ra khi đã biết B xảy ra.
Bài tập Xác suất
Bài 3
Hộp có 5 bi đỏ, 3 bi xanh. Lấy 2 bi. Tính xác suất:
a) Cả hai cùng màu
b) Ít nhất 1 bi đỏ
Giải: a)
b)
Bài 4
Xác suất đồng hồ chạy đúng trong 1 năm là 0.9. Với 3 đồng hồ độc lập:
a) Cả 3 đúng
b) Ít nhất 1 sai
Giải: a) b)
Tóm tắt
Công thức quan trọng
| Đại lượng | Công thức ghép nhóm |
|---|---|
| Trung bình | |
| Phương sai | |
| Độ lệch chuẩn | |
| Mốt |
Key Points
- Giá trị đại diện : Trung điểm của khoảng ghép nhóm
- Phương sai đo độ phân tán của dữ liệu quanh trung bình
- Biến cố độc lập:
- Biến cố xung khắc:
- Lưu ý: Công thức cộng xác suất tổng quát phải trừ phần giao
Lỗi thường gặp và cách tránh:
| Sai | Đúng | Giải thích |
|---|---|---|
| = biên dưới của nhóm | = trung điểm của nhóm | Đại diện là giữa khoảng |
| Phải trừ phần giao | ||
| Độc lập = xung khắc | Hai khái niệm khác nhau | Độc lập: không ảnh hưởng; Xung khắc: không cùng xảy ra |
| ít nhất 1 | Dùng biến cố đối nhanh hơn |
Mẹo nhớ: “Ít nhất = 1 trừ không có”
Hoàn thành Chương V! Chuyển sang Chương VI: Hàm số Mũ và Logarit