Chương 3: Các số đặc trưng đo mức độ phân tán cho mẫu số liệu ghép nhóm
Chương này mở rộng kiến thức thống kê từ Lớp 10 - áp dụng cho dữ liệu được phân nhóm theo khoảng (mẫu số liệu ghép nhóm).
Mục tiêu học tập
Sau khi hoàn thành chương này, bạn sẽ:
- Hiểu khái niệm mẫu số liệu ghép nhóm
- Tính được khoảng biến thiên, khoảng tứ phân vị
- Tính được phương sai và độ lệch chuẩn cho mẫu ghép nhóm
- Phân tích và so sánh các tập dữ liệu thống kê
§1. Khoảng biến thiên và khoảng tứ phân vị
1.1. Mẫu số liệu ghép nhóm là gì?
Khi thu thập dữ liệu với số lượng lớn, ta thường nhóm các giá trị vào các khoảng (class interval).
Ví dụ: Điều tra chiều cao của 100 học sinh, thay vì liệt kê từng giá trị, ta nhóm:
| Khoảng chiều cao (cm) | Tần số |
|---|---|
| [150; 155) | 8 |
| [155; 160) | 22 |
| [160; 165) | 35 |
| [165; 170) | 25 |
| [170; 175] | 10 |
| Tổng | 100 |
Biểu đồ histogram dữ liệu ghép nhóm:
Giải thích biểu đồ:
- Histogram hiển thị phân bố tần số theo các khoảng chiều cao
- Đường cong chuẩn cho thấy dữ liệu phân bố gần chuẩn với đỉnh ở khoảng [160; 165)
Giá trị đại diện của mỗi khoảng là
1.2. Khoảng biến thiên
Định nghĩa: Khoảng biến thiên (Range) là hiệu giữa giá trị lớn nhất và nhỏ nhất của dữ liệu.
Với mẫu ghép nhóm:
- = cận trên của nhóm cuối
- = cận dưới của nhóm đầu
Hạn chế: Khoảng biến thiên chỉ dựa vào 2 giá trị cực biên, không phản ánh sự phân bố của dữ liệu ở giữa.
1.3. Tứ phân vị và khoảng tứ phân vị
Định nghĩa tứ phân vị
- Q₁ (Tứ phân vị thứ nhất): 25% dữ liệu nằm dưới giá trị này
- Q₂ (Trung vị): 50% dữ liệu nằm dưới giá trị này
- Q₃ (Tứ phân vị thứ ba): 75% dữ liệu nằm dưới giá trị này
Khoảng tứ phân vị (IQR)
Ý nghĩa: IQR cho biết độ phân tán của 50% dữ liệu ở giữa, loại bỏ ảnh hưởng của giá trị ngoại lệ.
Công thức tính tứ phân vị cho mẫu ghép nhóm
Tứ phân vị thứ nhất :
Tứ phân vị thứ hai (Trung vị):
Tứ phân vị thứ ba :
Trong đó:
- : Cận dưới của nhóm chứa tứ phân vị
- : Tổng tần số
- : Tần số tích lũy trước nhóm chứa tứ phân vị
- : Tần số của nhóm chứa tứ phân vị
- : Độ rộng của nhóm
§2. Phương sai và độ lệch chuẩn
2.1. Giá trị trung bình của mẫu ghép nhóm
Trong đó:
- : giá trị đại diện của nhóm thứ
- : tần số của nhóm thứ
- : tổng tần số
2.2. Phương sai (Variance)
Hoặc dạng tính nhanh:
Ý nghĩa: Phương sai đo lường mức độ phân tán của dữ liệu quanh giá trị trung bình. Phương sai càng lớn, dữ liệu càng phân tán.
2.3. Độ lệch chuẩn (Standard Deviation)
Ý nghĩa: Độ lệch chuẩn có cùng đơn vị với dữ liệu gốc, dễ hiểu hơn phương sai.
Quy tắc kinh nghiệm (68-95-99.7):
- Khoảng 68% dữ liệu nằm trong
- Khoảng 95% dữ liệu nằm trong
- Khoảng 99.7% dữ liệu nằm trong
Phương sai có nghĩa gì? Phương sai đo “khoảng cách trung bình bình phương” từ mỗi giá trị đến trung bình. Phương sai lớn = dữ liệu “tản mát” khỏi trung bình nhiều. Phương sai nhỏ = dữ liệu “tập trung” quanh trung bình.
§3. Hệ số biến thiên
3.1. Định nghĩa
Khi so sánh mức độ phân tán của hai tập dữ liệu có đơn vị khác nhau hoặc trung bình khác nhau nhiều, ta dùng hệ số biến thiên (Coefficient of Variation - CV).
Tại sao cần hệ số biến thiên? Độ lệch chuẩn phụ thuộc đơn vị đo. Ví dụ: so sánh phân tán chiều cao (cm) và cân nặng (kg) không thể dùng trực tiếp . Hệ số biến thiên “chuẩn hóa” bằng cách chia cho trung bình, cho kết quả không đơn vị.
3.2. Đánh giá mức độ phân tán
| Hệ số biến thiên | Mức độ phân tán |
|---|---|
| Rất ít phân tán (rất đồng đều) | |
| Ít phân tán (khá đồng đều) | |
| Phân tán trung bình | |
| Phân tán nhiều (không đồng đều) |
Mẹo thi: Hệ số biến thiên thường xuất hiện trong bài so sánh 2 tập dữ liệu. Nếu đề hỏi “đồng đều hơn” → tính CV, CV nhỏ hơn = đồng đều hơn.
Lỗi thường gặp với thống kê nâng cao:
- Hệ số biến thiên: , so sánh độ phân tán khi đơn vị KHÁC nhau
- Nhầm phương sai mẫu: Phương sai mẫu hiệu chỉnh chia cho , KHÔNG phải
- Bảng tần số ghép nhóm: Giá trị đại diện = TRUNG ĐIỂM khoảng, KHÔNG phải biên trái/phải
Bài tập mẫu có lời giải
Bài 1: Tính các số đặc trưng
Đề bài: Cho bảng số liệu về tuổi của 50 nhân viên một công ty:
| Tuổi | [20; 25) | [25; 30) | [30; 35) | [35; 40) | [40; 45] |
|---|---|---|---|---|---|
| Số người | 5 | 12 | 18 | 10 | 5 |
Tính: a) Khoảng biến thiên, b) Trung bình, c) Phương sai và độ lệch chuẩn
Lời giải:
Nhắc lại: Giá trị đại diện
Lý do: Với mẫu ghép nhóm, ta không biết giá trị chính xác trong mỗi nhóm, nên lấy điểm giữa làm đại diện.
Bước 1: Tính giá trị đại diện và lập bảng tính
| Nhóm | ||||
|---|---|---|---|---|
| [20; 25) | 22.5 | 5 | 112.5 | 2531.25 |
| [25; 30) | 27.5 | 12 | 330 | 9075 |
| [30; 35) | 32.5 | 18 | 585 | 19012.5 |
| [35; 40) | 37.5 | 10 | 375 | 14062.5 |
| [40; 45] | 42.5 | 5 | 212.5 | 9031.25 |
| Tổng | 50 | 1615 | 53712.5 |
Lý do: Cột dùng cho công thức tính nhanh phương sai: .
Bước 2: Tính khoảng biến thiên
Bước 3: Tính trung bình
Kiểm tra ước lượng: Trung bình nằm trong nhóm [30; 35) có tần số cao nhất (18) ✓
Bước 4: Tính phương sai
Bước 5: Tính độ lệch chuẩn
Kiểm tra bằng quy tắc 68%: Khoảng chứa ~68% dữ liệu ✓
Kết luận: Tuổi trung bình của nhân viên là 32.3 tuổi, với độ lệch chuẩn 5.56 tuổi.
Bài 2: So sánh độ phân tán
Đề bài: So sánh độ phân tán của 2 lớp học qua bảng điểm:
Lớp A:
| Điểm | [4; 5) | [5; 6) | [6; 7) | [7; 8) | [8; 9] |
|---|---|---|---|---|---|
| Số HS | 2 | 5 | 15 | 10 | 8 |
Lớp B:
| Điểm | [4; 5) | [5; 6) | [6; 7) | [7; 8) | [8; 9] |
|---|---|---|---|---|---|
| Số HS | 6 | 10 | 8 | 10 | 6 |
Lời giải:
Nhắc lại: Độ lệch chuẩn nhỏ hơn = điểm đồng đều hơn.
Bước 1: Tính cho Lớp A ()
| Nhóm | ||||
|---|---|---|---|---|
| [4; 5) | 4.5 | 2 | 9 | 40.5 |
| [5; 6) | 5.5 | 5 | 27.5 | 151.25 |
| [6; 7) | 6.5 | 15 | 97.5 | 633.75 |
| [7; 8) | 7.5 | 10 | 75 | 562.5 |
| [8; 9] | 8.5 | 8 | 68 | 578 |
| Tổng | 40 | 274 | 1966 |
Bước 2: Tính cho Lớp B ()
| Nhóm | ||||
|---|---|---|---|---|
| [4; 5) | 4.5 | 6 | 27 | 121.5 |
| [5; 6) | 5.5 | 10 | 55 | 302.5 |
| [6; 7) | 6.5 | 8 | 52 | 338 |
| [7; 8) | 7.5 | 10 | 75 | 562.5 |
| [8; 9] | 8.5 | 6 | 51 | 433.5 |
| Tổng | 40 | 260 | 1758 |
Lý do so sánh: Trung bình cho biết “tốt” hay “không”, độ lệch chuẩn cho biết “đều” hay “không”.
Bước 3: So sánh và kết luận
| Lớp | Đánh giá | |||
|---|---|---|---|---|
| A | 6.85 | 1.49 | 21.8% | Cao hơn, ít đều hơn |
| B | 6.5 | 1.30 | 20.0% | Thấp hơn, đều hơn |
Kết luận: Lớp A có điểm trung bình CAO hơn (). Lớp B có điểm ĐỀU hơn (, ).
Liên hệ thực tế: Nếu chọn lớp để dạy nâng cao, chọn Lớp A (giỏi hơn). Nếu dạy cơ bản, chọn Lớp B (đồng đều hơn).
Bài 3: Tính tứ phân vị cho mẫu ghép nhóm
Đề bài: Cho bảng phân bố tần số về điểm thi của 80 học sinh:
| Điểm | [2; 4) | [4; 6) | [6; 8) | [8; 10] |
|---|---|---|---|---|
| Tần số | 10 | 25 | 30 | 15 |
Tính , , và IQR.
Lời giải:
Nhắc lại: Tính tần số tích lũy để xác định nhóm chứa tứ phân vị.
Bước 1: Lập bảng tần số tích lũy
| Nhóm | Tần số | Tần số tích lũy |
|---|---|---|
| [2; 4) | 10 | 10 |
| [4; 6) | 25 | 35 |
| [6; 8) | 30 | 65 |
| [8; 10] | 15 | 80 |
Lý do: Tần số tích lũy giúp xác định vị trí của (tại ), (tại ), (tại ).
Bước 2: Tính (vị trí )
- Nhóm chứa : [4; 6) (vì )
- , , ,
Bước 3: Tính (vị trí )
- Nhóm chứa : [6; 8) (vì )
- , , ,
Bước 4: Tính (vị trí )
- Nhóm chứa : [6; 8) (vì )
- , , ,
Bước 5: Tính IQR
Kiểm tra: ✓ và IQR > 0 ✓
Bài 4: So sánh bằng hệ số biến thiên
Đề bài: Chiều cao (cm) và cân nặng (kg) của 40 học sinh được thống kê:
| Đặc trưng | Chiều cao | Cân nặng |
|---|---|---|
| 165 cm | 55 kg | |
| 8.2 cm | 6.5 kg |
Chỉ số nào phân tán hơn?
Lời giải:
Nhắc lại: Không thể so sánh trực tiếp vì khác đơn vị. Dùng hệ số biến thiên.
Bước 1: Tính CV cho chiều cao
Bước 2: Tính CV cho cân nặng
Lý do dùng CV: Chiều cao đo bằng cm, cân nặng đo bằng kg → không thể so sánh trực tiếp.
Kết luận:
→ Cân nặng phân tán hơn chiều cao. Chiều cao của học sinh khá đồng đều (CV < 10%).
Bài 5: Phân tích giá trị ngoại lệ
Đề bài: Cho bảng phân bố:
| Nhóm | [10; 20) | [20; 30) | [30; 40) | [40; 50) | [50; 60] |
|---|---|---|---|---|---|
| Tần số | 3 | 12 | 20 | 10 | 5 |
Xác định có giá trị ngoại lệ không.
Lời giải:
Nhắc lại: Giá trị ngoại lệ nằm ngoài .
Bước 1: Tính tứ phân vị ()
| Nhóm | ||
|---|---|---|
| [10; 20) | 3 | 3 |
| [20; 30) | 12 | 15 |
| [30; 40) | 20 | 35 |
| [40; 50) | 10 | 45 |
| [50; 60] | 5 | 50 |
- (vị trí 12.5): nhóm [20; 30),
- (vị trí 37.5): nhóm [40; 50),
Bước 2: Tính IQR và ngưỡng ngoại lệ
Bước 3: Kết luận
- Dữ liệu nằm trong , hoàn toàn trong
- → Không có giá trị ngoại lệ ✓
IQR có nghĩa gì? IQR đo “độ rộng” của 50% dữ liệu ở giữa. IQR lớn = dữ liệu trải rộng. IQR nhỏ = dữ liệu tập trung. Khác với khoảng biến thiên , IQR không bị ảnh hưởng bởi giá trị ngoại lệ.
Bài tập tự luyện
Bài 1
Cho bảng phân bố tần số về chiều cao (cm) của 60 học sinh:
| Chiều cao | [150; 155) | [155; 160) | [160; 165) | [165; 170] |
|---|---|---|---|---|
| Tần số | 10 | 20 | 22 | 8 |
Tính trung bình, phương sai và độ lệch chuẩn.
Bài 2
Cho bảng phân bố tần số về thời gian hoàn thành công việc (phút):
| Thời gian | [10; 15) | [15; 20) | [20; 25) | [25; 30] |
|---|---|---|---|---|
| Số người | 4 | 12 | 8 | 6 |
a) Tính Q₁, Q₂, Q₃ b) Tính IQR c) Xác định có giá trị ngoại lệ không (ngoại lệ nếu nằm ngoài [Q₁ - 1.5×IQR, Q₃ + 1.5×IQR])
Bài 3
Hai xí nghiệp sản xuất linh kiện có kết quả kiểm tra (mm):
| Xí nghiệp X | Xí nghiệp Y | |
|---|---|---|
| 50.2 mm | 25.1 mm | |
| 3.5 mm | 2.8 mm |
Xí nghiệp nào sản xuất đồng đều hơn? (Gợi ý: Dùng hệ số biến thiên)
Tóm tắt công thức
| Đại lượng | Công thức | Ý nghĩa |
|---|---|---|
| Khoảng biến thiên | Độ rộng dữ liệu | |
| Trung bình | Giá trị đại diện trung tâm | |
| Phương sai | Độ phân tán (bình phương) | |
| Độ lệch chuẩn | Độ phân tán (cùng đơn vị) | |
| IQR | Độ phân tán 50% giữa | |
| Hệ số biến thiên | So sánh phân tán khác đơn vị | |
| Ngoại lệ | Ngoài | Phát hiện outlier |
Lỗi thường gặp và cách tránh:
| Sai | Đúng | Giải thích |
|---|---|---|
| = biên dưới nhóm | = trung điểm nhóm | Giá trị đại diện là giữa khoảng |
| có đơn vị gốc | có đơn vị bình phương | Chỉ có đơn vị gốc |
| Q2 = trung bình | Q2 = trung vị | Q2 chia đôi dữ liệu |
| So sánh khác đơn vị | Dùng CV khi khác đơn vị | CV không phụ thuộc đơn vị |
| IQR phát hiện tất cả outlier | Chỉ dựa trên 1.5×IQR | Có thể có outlier khác |
Mẹo nhớ: “Q1-Q2-Q3 chia dữ liệu thành 4 phần bằng nhau, CV = s/x̄ so sánh phân tán”
Hoàn thành Chương 3! Chuyển sang Chương 4: Nguyên hàm và Tích phân