Chương 6: Thống kê
Ý nghĩa các số thống kê:
| Số đặc trưng | Trả lời câu hỏi | Ví dụ |
|---|---|---|
| Trung bình () | Giá trị “đại diện” là gì? | Điểm TB lớp: 7.5 |
| Phương sai () | Dữ liệu phân tán như thế nào? | lớn = điểm chênh lệch nhiều |
| Độ lệch chuẩn () | Khoảng dao động quanh TB? | → đa số điểm trong |
| Mốt (Mo) | Giá trị nào phổ biến nhất? | Mốt = 8 → điểm 8 nhiều nhất |
| Trung vị (Me) | Giá trị ở giữa? | Me = 7 → 50% điểm ≥ 7 |
Mục tiêu học tập
Sau khi hoàn thành chương này, bạn sẽ:
- Hiểu các khái niệm cơ bản về thống kê
- Tính toán các đại lượng đặc trưng: trung bình, phương sai, độ lệch chuẩn
- Biết cách đọc và lập bảng tần số, biểu đồ
Phần 1: Các khái niệm cơ bản
1.1. Dữ liệu thống kê
Dữ liệu (data) là tập hợp các con số, sự kiện được thu thập từ quan sát hoặc đo đạc.
Tần số (frequency): Số lần xuất hiện của một giá trị trong mẫu dữ liệu.
Tần suất (relative frequency): Tỉ lệ phần trăm của tần số so với tổng số dữ liệu.
1.2. Bảng phân bố tần số
Bảng phân bố tần số được lập như sau:
| Giá trị () | … | Tổng | |||
|---|---|---|---|---|---|
| Tần số () | … | ||||
| Tần suất () | … | 100% |
Phần 2: Các số đặc trưng của mẫu số liệu
2.1. Số trung bình cộng (Mean)
Định nghĩa: Trung bình cộng của mẫu số liệu là:
Với bảng tần số:
2.2. Trung vị (Median)
Định nghĩa: Trung vị là giá trị ở vị trí chính giữa khi sắp xếp dữ liệu theo thứ tự tăng dần.
Cách tính:
- Nếu lẻ:
- Nếu chẵn:
2.3. Mốt (Mode)
Định nghĩa: Mốt là giá trị xuất hiện nhiều lần nhất trong mẫu số liệu.
Lưu ý: Một mẫu có thể có nhiều mốt hoặc không có mốt (khi tất cả giá trị xuất hiện như nhau).
2.4. Phương sai (Variance)
Định nghĩa: Phương sai đo mức độ phân tán của dữ liệu quanh giá trị trung bình:
Với bảng tần số:
Công thức tính nhanh:
2.5. Độ lệch chuẩn (Standard Deviation)
Định nghĩa: Độ lệch chuẩn là căn bậc hai của phương sai:
Ý nghĩa thống kê:
- Phương sai/độ lệch chuẩn nhỏ: Dữ liệu tập trung gần giá trị trung bình
- Phương sai/độ lệch chuẩn lớn: Dữ liệu phân tán xa giá trị trung bình
Lỗi thường gặp với thống kê:
- Nhầm trung bình = trung điểm: , NOT
- Khi cộng hằng số c: , nhưng (phương sai KHÔNG ĐỔI!)
- Khi nhân hằng số k: , và (phương sai nhân !)
Phần 3: Biểu đồ thống kê
3.1. Biểu đồ cột (Bar chart)
Dùng để so sánh các giá trị rời rạc. Chiều cao cột tỉ lệ với tần số/tần suất.
3.2. Biểu đồ tần suất hình quạt (Pie chart)
Dùng để thể hiện tỉ lệ phần trăm. Góc của mỗi phần tỉ lệ với tần suất.
3.3. Đường gấp khúc tần số
Biểu diễn sự biến đổi của tần số theo giá trị dữ liệu.
Hình minh họa biểu đồ cột tần số:
Giải thích: Biểu đồ cột thể hiện trực quan tần số của mỗi giá trị. Chiều cao cột tỉ lệ với số lần xuất hiện. Đây là công cụ quan trọng để visualize phân phối dữ liệu.
Hình minh họa phân phối chuẩn:
Giải thích: Phân phối chuẩn (hình chuông) có tính chất: 68.27% dữ liệu nằm trong khoảng μ ± σ, 95.45% trong μ ± 2σ, và 99.73% trong μ ± 3σ.
Bài tập mẫu có lời giải
Bài 1: Lập bảng phân bố tần số
Đề bài: Điểm thi của 30 học sinh như sau:
5, 7, 8, 6, 9, 7, 8, 5, 6, 7, 8, 9, 6, 7, 8, 5, 6, 7, 8, 9, 6, 7, 5, 8, 7, 6, 8, 9, 7, 8
Lập bảng phân bố tần số, tần suất.
Lời giải chi tiết:
Nhắc lại:
- Tần số (): Số lần xuất hiện của giá trị
- Tần suất ():
Bước 1: Đếm tần số mỗi điểm
| Điểm | 5 | 6 | 7 | 8 | 9 |
|---|---|---|---|---|---|
| Đếm | //// | ////// | //////// | //////// | //// |
| Tần số | 4 | 6 | 8 | 8 | 4 |
Lý do: Đếm từng giá trị trong dữ liệu, ghi vạch (tally marks) để dễ theo dõi.
Bước 2: Tính tần suất
Bước 3: Lập bảng hoàn chỉnh
| Điểm () | 5 | 6 | 7 | 8 | 9 | Tổng |
|---|---|---|---|---|---|---|
| Tần số () | 4 | 6 | 8 | 8 | 4 | 30 |
| Tần suất () | 13.3% | 20% | 26.7% | 26.7% | 13.3% | 100% |
Kiểm tra: Tổng tần số = ✓. Tổng tần suất = 100% ✓
Bài 2: Tính các đại lượng đặc trưng
Đề bài: Với dữ liệu ở Bài 1, tính:
a) Số trung bình cộng
b) Trung vị
c) Mốt
d) Phương sai và độ lệch chuẩn
Lời giải chi tiết:
Nhắc lại công thức:
- Trung bình:
- Phương sai:
a) Số trung bình:
Bước 1: Tính tổng
Bước 2: Chia cho tổng số
Lý do: Trung bình = tổng tất cả giá trị / số lượng.
b) Trung vị:
Bước 1: Xác định vị trí trung vị
- (chẵn), nên
Bước 2: Đếm vị trí tích lũy
| Vị trí | 1-4 | 5-10 | 11-18 | 19-26 | 27-30 |
|---|---|---|---|---|---|
| Điểm | 5 | 6 | 7 | 8 | 9 |
Lý do: Vị trí 15 và 16 đều nằm trong khoảng 11-18 (tần số tích lũy: 4+6+8=18).
c) Mốt:
Giá trị xuất hiện nhiều nhất: 7 và 8 (đều 8 lần)
(mẫu có 2 mốt - bimodal)
d) Phương sai:
Bước 1: Tính
Bước 2: Áp dụng công thức
Lý do: Công thức tính nhanh: .
Độ lệch chuẩn:
Ý nghĩa: Đa số điểm nằm trong khoảng .
Bài 3: Bài toán về dữ liệu ghép lớp
Đề bài: Khối lượng (kg) của 40 bao gạo được phân vào các lớp:
| Lớp (kg) | [48, 50) | [50, 52) | [52, 54) | [54, 56) | [56, 58] |
|---|---|---|---|---|---|
| Tần số | 5 | 10 | 15 | 8 | 2 |
Tìm số trung bình.
Lời giải chi tiết:
Nhắc lại: Với dữ liệu ghép lớp, dùng giá trị đại diện = trung điểm của mỗi lớp.
Bước 1: Tính giá trị đại diện của mỗi lớp
| Lớp | [48, 50) | [50, 52) | [52, 54) | [54, 56) | [56, 58] |
|---|---|---|---|---|---|
| Trung điểm | |||||
| Tần số | 5 | 10 | 15 | 8 | 2 |
Lý do: Dùng trung điểm vì các giá trị trong lớp được giả sử phân bố đều.
Bước 2: Tính tổng
Bước 3: Tính trung bình
Kiểm tra ước lượng: Trung bình nằm trong lớp [52, 54) có tần số cao nhất (15) ✓
Bài tập tự luyện
Bài 1
Điểm kiểm tra của 20 học sinh: 4, 5, 6, 7, 8, 5, 6, 7, 8, 9, 6, 7, 7, 8, 8, 9, 5, 6, 7, 8
a) Lập bảng phân bố tần số, tần suất
b) Tính số trung bình, trung vị, mốt
c) Vẽ biểu đồ cột tần số
Bài 2
Số sản phẩm mỗi ngày của công nhân trong 30 ngày:
| Số sản phẩm | 45 | 46 | 47 | 48 | 49 | 50 |
|---|---|---|---|---|---|---|
| Số ngày | 2 | 5 | 8 | 9 | 4 | 2 |
a) Tính năng suất trung bình
b) Tính phương sai và độ lệch chuẩn
Bài 3
Cho dữ liệu có số trung bình là 50 và phương sai là 16.
a) Tính độ lệch chuẩn
b) Nếu tăng mỗi giá trị trong mẫu thêm 5, số trung bình và phương sai mới là bao nhiêu?
c) Nếu nhân mỗi giá trị trong mẫu với 2, số trung bình và phương sai mới là bao nhiêu?
Tóm tắt
Công thức quan trọng
| Công thức | Ý nghĩa |
|---|---|
| Số trung bình (có tần số) | |
| Phương sai | |
| Độ lệch chuẩn | |
| Mốt | Giá trị có tần số lớn nhất |
| Trung vị | Giá trị ở vị trí giữa (khi sắp thứ tự) |
Key Points
- Số trung bình: Tổng chia số lượng
- Phương sai: Đo độ phân tán quanh trung bình
- Độ lệch chuẩn: Căn bậc 2 của phương sai
- Lưu ý: Trung vị ≠ Trung bình (khác nhau khi có outliers)
Lỗi thường gặp và cách tránh:
| Sai | Đúng | Giải thích |
|---|---|---|
| Trung bình = (xmin + xmax)/2 | Trung bình = | Nhầm với trung điểm |
| Phương sai có thể âm | Phương sai | Bình phương luôn dương |
| Độ lệch chuẩn = Phương sai | ĐLC là căn của PS | |
| Mốt là giá trị nhỏ nhất | Mốt = giá trị xuất hiện nhiều nhất | Nhầm khái niệm |
Mẹo nhớ:
- Số trung bình: “Tổng chia số”
- Phương sai: “Bình phương độ chênh lệch”
- Mốt: “Mode = Most frequent”
Hoàn thành chương 5! Chuyển sang Chương 6: Vector