Skip to Content
Cấp 3 (Lớp 10-12)Lớp 12Chương 3: Thống kê mẫu ghép nhóm

Chương 3: Các số đặc trưng đo mức độ phân tán cho mẫu số liệu ghép nhóm

Chương này mở rộng kiến thức thống kê từ Lớp 10 - áp dụng cho dữ liệu được phân nhóm theo khoảng (mẫu số liệu ghép nhóm).

Mục tiêu học tập

Sau khi hoàn thành chương này, bạn sẽ:

  • Hiểu khái niệm mẫu số liệu ghép nhóm
  • Tính được khoảng biến thiên, khoảng tứ phân vị
  • Tính được phương sai và độ lệch chuẩn cho mẫu ghép nhóm
  • Phân tích và so sánh các tập dữ liệu thống kê

§1. Khoảng biến thiên và khoảng tứ phân vị

1.1. Mẫu số liệu ghép nhóm là gì?

Khi thu thập dữ liệu với số lượng lớn, ta thường nhóm các giá trị vào các khoảng (class interval).

Ví dụ: Điều tra chiều cao của 100 học sinh, thay vì liệt kê từng giá trị, ta nhóm:

Khoảng chiều cao (cm)Tần số
[150; 155)8
[155; 160)22
[160; 165)35
[165; 170)25
[170; 175]10
Tổng100

Biểu đồ histogram dữ liệu ghép nhóm:

Tần sốĐiểm24685466788894Biểu đồ cột tần số điểm kiểm tra
μ (trung bình)μ-σμ+σ68.27%Phân phối chuẩn (Normal Distribution)σ = độ lệch chuẩn

Giải thích biểu đồ:

  • Histogram hiển thị phân bố tần số theo các khoảng chiều cao
  • Đường cong chuẩn cho thấy dữ liệu phân bố gần chuẩn với đỉnh ở khoảng [160; 165)

Giá trị đại diện của mỗi khoảng [a;b)[a; b)c=a+b2c = \frac{a + b}{2}


1.2. Khoảng biến thiên

Định nghĩa: Khoảng biến thiên (Range) là hiệu giữa giá trị lớn nhất và nhỏ nhất của dữ liệu.

R=xmaxxminR = x_{max} - x_{min}

Với mẫu ghép nhóm:

  • xmaxx_{max} = cận trên của nhóm cuối
  • xminx_{min} = cận dưới của nhóm đầu

Hạn chế: Khoảng biến thiên chỉ dựa vào 2 giá trị cực biên, không phản ánh sự phân bố của dữ liệu ở giữa.


1.3. Tứ phân vị và khoảng tứ phân vị

Định nghĩa tứ phân vị

  • Q₁ (Tứ phân vị thứ nhất): 25% dữ liệu nằm dưới giá trị này
  • Q₂ (Trung vị): 50% dữ liệu nằm dưới giá trị này
  • Q₃ (Tứ phân vị thứ ba): 75% dữ liệu nằm dưới giá trị này

Khoảng tứ phân vị (IQR)

IQR=Q3Q1IQR = Q_3 - Q_1

Ý nghĩa: IQR cho biết độ phân tán của 50% dữ liệu ở giữa, loại bỏ ảnh hưởng của giá trị ngoại lệ.

Công thức tính tứ phân vị cho mẫu ghép nhóm

Tứ phân vị thứ nhất Q1Q_1: Q1=s+n4cfn1hQ_1 = s + \frac{\frac{n}{4} - c_f}{n_1} \cdot h

Tứ phân vị thứ hai Q2Q_2 (Trung vị): Q2=s+n2cfn2hQ_2 = s + \frac{\frac{n}{2} - c_f}{n_2} \cdot h

Tứ phân vị thứ ba Q3Q_3: Q3=s+3n4cfn3hQ_3 = s + \frac{\frac{3n}{4} - c_f}{n_3} \cdot h

Trong đó:

  • ss: Cận dưới của nhóm chứa tứ phân vị
  • nn: Tổng tần số
  • cfc_f: Tần số tích lũy trước nhóm chứa tứ phân vị
  • nin_i: Tần số của nhóm chứa tứ phân vị
  • hh: Độ rộng của nhóm

§2. Phương sai và độ lệch chuẩn

2.1. Giá trị trung bình của mẫu ghép nhóm

xˉ=i=1kcinin\bar{x} = \frac{\sum_{i=1}^{k} c_i \cdot n_i}{n}

Trong đó:

  • cic_i: giá trị đại diện của nhóm thứ ii
  • nin_i: tần số của nhóm thứ ii
  • nn: tổng tần số

2.2. Phương sai (Variance)

s2=i=1kni(cixˉ)2ns^2 = \frac{\sum_{i=1}^{k} n_i \cdot (c_i - \bar{x})^2}{n}

Hoặc dạng tính nhanh:

s2=i=1knici2nxˉ2s^2 = \frac{\sum_{i=1}^{k} n_i \cdot c_i^2}{n} - \bar{x}^2

Ý nghĩa: Phương sai đo lường mức độ phân tán của dữ liệu quanh giá trị trung bình. Phương sai càng lớn, dữ liệu càng phân tán.


2.3. Độ lệch chuẩn (Standard Deviation)

s=s2=i=1kni(cixˉ)2ns = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{k} n_i \cdot (c_i - \bar{x})^2}{n}}

Ý nghĩa: Độ lệch chuẩn có cùng đơn vị với dữ liệu gốc, dễ hiểu hơn phương sai.

Quy tắc kinh nghiệm (68-95-99.7):

  • Khoảng 68% dữ liệu nằm trong [xˉs,xˉ+s][\bar{x} - s, \bar{x} + s]
  • Khoảng 95% dữ liệu nằm trong [xˉ2s,xˉ+2s][\bar{x} - 2s, \bar{x} + 2s]
  • Khoảng 99.7% dữ liệu nằm trong [xˉ3s,xˉ+3s][\bar{x} - 3s, \bar{x} + 3s]

Phương sai có nghĩa gì? Phương sai đo “khoảng cách trung bình bình phương” từ mỗi giá trị đến trung bình. Phương sai lớn = dữ liệu “tản mát” khỏi trung bình nhiều. Phương sai nhỏ = dữ liệu “tập trung” quanh trung bình.


§3. Hệ số biến thiên

3.1. Định nghĩa

Khi so sánh mức độ phân tán của hai tập dữ liệu có đơn vị khác nhau hoặc trung bình khác nhau nhiều, ta dùng hệ số biến thiên (Coefficient of Variation - CV).

CV=sxˉ×100%\boxed{CV = \frac{s}{\bar{x}} \times 100\%}

Tại sao cần hệ số biến thiên? Độ lệch chuẩn phụ thuộc đơn vị đo. Ví dụ: so sánh phân tán chiều cao (cm) và cân nặng (kg) không thể dùng trực tiếp ss. Hệ số biến thiên “chuẩn hóa” bằng cách chia cho trung bình, cho kết quả không đơn vị.

3.2. Đánh giá mức độ phân tán

Hệ số biến thiênMức độ phân tán
CV<10%CV < 10\%Rất ít phân tán (rất đồng đều)
10%CV<20%10\% \leq CV < 20\%Ít phân tán (khá đồng đều)
20%CV<30%20\% \leq CV < 30\%Phân tán trung bình
CV30%CV \geq 30\%Phân tán nhiều (không đồng đều)

Mẹo thi: Hệ số biến thiên thường xuất hiện trong bài so sánh 2 tập dữ liệu. Nếu đề hỏi “đồng đều hơn” → tính CV, CV nhỏ hơn = đồng đều hơn.


Lỗi thường gặp với thống kê nâng cao:

  1. Hệ số biến thiên: CV=sxˉ×100%CV = \frac{s}{\bar{x}} \times 100\%, so sánh độ phân tán khi đơn vị KHÁC nhau
  2. Nhầm phương sai mẫu: Phương sai mẫu hiệu chỉnh chia cho (n1)(n\mathbf{-1}), KHÔNG phải nn
  3. Bảng tần số ghép nhóm: Giá trị đại diện = TRUNG ĐIỂM khoảng, KHÔNG phải biên trái/phải

Bài tập mẫu có lời giải

Bài 1: Tính các số đặc trưng

Đề bài: Cho bảng số liệu về tuổi của 50 nhân viên một công ty:

Tuổi[20; 25)[25; 30)[30; 35)[35; 40)[40; 45]
Số người51218105

Tính: a) Khoảng biến thiên, b) Trung bình, c) Phương sai và độ lệch chuẩn

Lời giải:

Nhắc lại: Giá trị đại diện ci=ai+bi2c_i = \frac{a_i + b_i}{2}

Lý do: Với mẫu ghép nhóm, ta không biết giá trị chính xác trong mỗi nhóm, nên lấy điểm giữa làm đại diện.

Bước 1: Tính giá trị đại diện và lập bảng tính

Nhómcic_inin_icinic_i \cdot n_ici2nic_i^2 \cdot n_i
[20; 25)22.55112.52531.25
[25; 30)27.5123309075
[30; 35)32.51858519012.5
[35; 40)37.51037514062.5
[40; 45]42.55212.59031.25
Tổng50161553712.5

Lý do: Cột ci2nic_i^2 \cdot n_i dùng cho công thức tính nhanh phương sai: s2=c2xˉ2s^2 = \overline{c^2} - \bar{x}^2.

Bước 2: Tính khoảng biến thiên R=xmaxxmin=4520=25 (tuổi)R = x_{max} - x_{min} = 45 - 20 = 25 \text{ (tuổi)}

Bước 3: Tính trung bình xˉ=cinin=161550=32.3 (tuổi)\bar{x} = \frac{\sum c_i \cdot n_i}{n} = \frac{1615}{50} = 32.3 \text{ (tuổi)}

Kiểm tra ước lượng: Trung bình nằm trong nhóm [30; 35) có tần số cao nhất (18) ✓

Bước 4: Tính phương sai s2=ci2ninxˉ2=53712.550(32.3)2=1074.251043.29=30.96s^2 = \frac{\sum c_i^2 \cdot n_i}{n} - \bar{x}^2 = \frac{53712.5}{50} - (32.3)^2 = 1074.25 - 1043.29 = 30.96

Bước 5: Tính độ lệch chuẩn s=s2=30.965.56 (tuổi)s = \sqrt{s^2} = \sqrt{30.96} \approx 5.56 \text{ (tuổi)}

Kiểm tra bằng quy tắc 68%: Khoảng [xˉs,xˉ+s]=[26.74,37.86][\bar{x} - s, \bar{x} + s] = [26.74, 37.86] chứa ~68% dữ liệu ✓

Kết luận: Tuổi trung bình của nhân viên là 32.3 tuổi, với độ lệch chuẩn 5.56 tuổi.


Bài 2: So sánh độ phân tán

Đề bài: So sánh độ phân tán của 2 lớp học qua bảng điểm:

Lớp A:

Điểm[4; 5)[5; 6)[6; 7)[7; 8)[8; 9]
Số HS2515108

Lớp B:

Điểm[4; 5)[5; 6)[6; 7)[7; 8)[8; 9]
Số HS6108106

Lời giải:

Nhắc lại: Độ lệch chuẩn nhỏ hơn = điểm đồng đều hơn.

Bước 1: Tính cho Lớp A (n=40n = 40)

Nhómcic_inin_icinic_i \cdot n_ici2nic_i^2 \cdot n_i
[4; 5)4.52940.5
[5; 6)5.5527.5151.25
[6; 7)6.51597.5633.75
[7; 8)7.51075562.5
[8; 9]8.5868578
Tổng402741966

xˉA=27440=6.85\bar{x}_A = \frac{274}{40} = 6.85 sA2=1966406.852=49.1546.92=2.23s_A^2 = \frac{1966}{40} - 6.85^2 = 49.15 - 46.92 = 2.23 sA=2.231.49s_A = \sqrt{2.23} \approx 1.49

Bước 2: Tính cho Lớp B (n=40n = 40)

Nhómcic_inin_icinic_i \cdot n_ici2nic_i^2 \cdot n_i
[4; 5)4.5627121.5
[5; 6)5.51055302.5
[6; 7)6.5852338
[7; 8)7.51075562.5
[8; 9]8.5651433.5
Tổng402601758

xˉB=26040=6.5\bar{x}_B = \frac{260}{40} = 6.5 sB2=1758406.52=43.9542.25=1.70s_B^2 = \frac{1758}{40} - 6.5^2 = 43.95 - 42.25 = 1.70 sB=1.701.30s_B = \sqrt{1.70} \approx 1.30

Lý do so sánh: Trung bình cho biết “tốt” hay “không”, độ lệch chuẩn cho biết “đều” hay “không”.

Bước 3: So sánh và kết luận

Lớpxˉ\bar{x}ssCVCVĐánh giá
A6.851.4921.8%Cao hơn, ít đều hơn
B6.51.3020.0%Thấp hơn, đều hơn

Kết luận: Lớp A có điểm trung bình CAO hơn (6.85>6.56.85 > 6.5). Lớp B có điểm ĐỀU hơn (sB<sAs_B < s_A, CVB<CVACV_B < CV_A).

Liên hệ thực tế: Nếu chọn lớp để dạy nâng cao, chọn Lớp A (giỏi hơn). Nếu dạy cơ bản, chọn Lớp B (đồng đều hơn).


Bài 3: Tính tứ phân vị cho mẫu ghép nhóm

Đề bài: Cho bảng phân bố tần số về điểm thi của 80 học sinh:

Điểm[2; 4)[4; 6)[6; 8)[8; 10]
Tần số10253015

Tính Q1Q_1, Q2Q_2, Q3Q_3 và IQR.

Lời giải:

Nhắc lại: Tính tần số tích lũy để xác định nhóm chứa tứ phân vị.

Bước 1: Lập bảng tần số tích lũy

NhómTần số nin_iTần số tích lũy CFCF
[2; 4)1010
[4; 6)2535
[6; 8)3065
[8; 10]1580

Lý do: Tần số tích lũy giúp xác định vị trí của Q1Q_1 (tại n/4n/4), Q2Q_2 (tại n/2n/2), Q3Q_3 (tại 3n/43n/4).

Bước 2: Tính Q1Q_1 (vị trí n/4=20n/4 = 20)

  • Nhóm chứa Q1Q_1: [4; 6) (vì CF=10<2035CF = 10 < 20 \leq 35)
  • s=4s = 4, cf=10c_f = 10, n1=25n_1 = 25, h=2h = 2

Q1=4+201025×2=4+0.8=4.8Q_1 = 4 + \frac{20 - 10}{25} \times 2 = 4 + 0.8 = 4.8

Bước 3: Tính Q2Q_2 (vị trí n/2=40n/2 = 40)

  • Nhóm chứa Q2Q_2: [6; 8) (vì CF=35<4065CF = 35 < 40 \leq 65)
  • s=6s = 6, cf=35c_f = 35, n2=30n_2 = 30, h=2h = 2

Q2=6+403530×2=6+1030=6.33Q_2 = 6 + \frac{40 - 35}{30} \times 2 = 6 + \frac{10}{30} = 6.33

Bước 4: Tính Q3Q_3 (vị trí 3n/4=603n/4 = 60)

  • Nhóm chứa Q3Q_3: [6; 8) (vì CF=35<6065CF = 35 < 60 \leq 65)
  • s=6s = 6, cf=35c_f = 35, n3=30n_3 = 30, h=2h = 2

Q3=6+603530×2=6+5030=7.67Q_3 = 6 + \frac{60 - 35}{30} \times 2 = 6 + \frac{50}{30} = 7.67

Bước 5: Tính IQR IQR=Q3Q1=7.674.8=2.87IQR = Q_3 - Q_1 = 7.67 - 4.8 = 2.87

Kiểm tra: Q1<Q2<Q3Q_1 < Q_2 < Q_3 ✓ và IQR > 0 ✓


Bài 4: So sánh bằng hệ số biến thiên

Đề bài: Chiều cao (cm) và cân nặng (kg) của 40 học sinh được thống kê:

Đặc trưngChiều caoCân nặng
xˉ\bar{x}165 cm55 kg
ss8.2 cm6.5 kg

Chỉ số nào phân tán hơn?

Lời giải:

Nhắc lại: Không thể so sánh trực tiếp ss vì khác đơn vị. Dùng hệ số biến thiên.

Bước 1: Tính CV cho chiều cao CVcao=sxˉ×100%=8.2165×100%4.97%CV_{\text{cao}} = \frac{s}{\bar{x}} \times 100\% = \frac{8.2}{165} \times 100\% \approx 4.97\%

Bước 2: Tính CV cho cân nặng CVnặng=sxˉ×100%=6.555×100%11.82%CV_{\text{nặng}} = \frac{s}{\bar{x}} \times 100\% = \frac{6.5}{55} \times 100\% \approx 11.82\%

Lý do dùng CV: Chiều cao đo bằng cm, cân nặng đo bằng kg → không thể so sánh ss trực tiếp.

Kết luận: CVnặng11.82%>CVcao4.97%CV_{\text{nặng}} \approx 11.82\% > CV_{\text{cao}} \approx 4.97\%

Cân nặng phân tán hơn chiều cao. Chiều cao của học sinh khá đồng đều (CV < 10%).


Bài 5: Phân tích giá trị ngoại lệ

Đề bài: Cho bảng phân bố:

Nhóm[10; 20)[20; 30)[30; 40)[40; 50)[50; 60]
Tần số31220105

Xác định có giá trị ngoại lệ không.

Lời giải:

Nhắc lại: Giá trị ngoại lệ nằm ngoài [Q11.5×IQR,Q3+1.5×IQR][Q_1 - 1.5 \times IQR, \, Q_3 + 1.5 \times IQR].

Bước 1: Tính tứ phân vị (n=50n = 50)

Nhómnin_iCFCF
[10; 20)33
[20; 30)1215
[30; 40)2035
[40; 50)1045
[50; 60]550
  • Q1Q_1 (vị trí 12.5): nhóm [20; 30), Q1=20+12.5312×10=27.92Q_1 = 20 + \frac{12.5 - 3}{12} \times 10 = 27.92
  • Q3Q_3 (vị trí 37.5): nhóm [40; 50), Q3=40+37.53510×10=42.5Q_3 = 40 + \frac{37.5 - 35}{10} \times 10 = 42.5

Bước 2: Tính IQR và ngưỡng ngoại lệ IQR=42.527.92=14.58IQR = 42.5 - 27.92 = 14.58 Ngưỡng dưới=Q11.5×IQR=27.9221.87=6.05\text{Ngưỡng dưới} = Q_1 - 1.5 \times IQR = 27.92 - 21.87 = 6.05 Ngưỡng treˆn=Q3+1.5×IQR=42.5+21.87=64.37\text{Ngưỡng trên} = Q_3 + 1.5 \times IQR = 42.5 + 21.87 = 64.37

Bước 3: Kết luận

  • Dữ liệu nằm trong [10,60][10, 60], hoàn toàn trong [6.05,64.37][6.05, 64.37]
  • Không có giá trị ngoại lệ

IQR có nghĩa gì? IQR đo “độ rộng” của 50% dữ liệu ở giữa. IQR lớn = dữ liệu trải rộng. IQR nhỏ = dữ liệu tập trung. Khác với khoảng biến thiên RR, IQR không bị ảnh hưởng bởi giá trị ngoại lệ.


Bài tập tự luyện

Bài 1

Cho bảng phân bố tần số về chiều cao (cm) của 60 học sinh:

Chiều cao[150; 155)[155; 160)[160; 165)[165; 170]
Tần số1020228

Tính trung bình, phương sai và độ lệch chuẩn.

Bài 2

Cho bảng phân bố tần số về thời gian hoàn thành công việc (phút):

Thời gian[10; 15)[15; 20)[20; 25)[25; 30]
Số người41286

a) Tính Q₁, Q₂, Q₃ b) Tính IQR c) Xác định có giá trị ngoại lệ không (ngoại lệ nếu nằm ngoài [Q₁ - 1.5×IQR, Q₃ + 1.5×IQR])

Bài 3

Hai xí nghiệp sản xuất linh kiện có kết quả kiểm tra (mm):

Xí nghiệp XXí nghiệp Y
xˉ\bar{x}50.2 mm25.1 mm
ss3.5 mm2.8 mm

Xí nghiệp nào sản xuất đồng đều hơn? (Gợi ý: Dùng hệ số biến thiên)


Tóm tắt công thức

Đại lượngCông thứcÝ nghĩa
Khoảng biến thiênR=xmaxxminR = x_{max} - x_{min}Độ rộng dữ liệu
Trung bìnhxˉ=cinin\bar{x} = \frac{\sum c_i n_i}{n}Giá trị đại diện trung tâm
Phương sais2=ni(cixˉ)2ns^2 = \frac{\sum n_i(c_i - \bar{x})^2}{n}Độ phân tán (bình phương)
Độ lệch chuẩns=s2s = \sqrt{s^2}Độ phân tán (cùng đơn vị)
IQRQ3Q1Q_3 - Q_1Độ phân tán 50% giữa
Hệ số biến thiênCV=sxˉ×100%CV = \frac{s}{\bar{x}} \times 100\%So sánh phân tán khác đơn vị
Ngoại lệNgoài [Q11.5×IQR,Q3+1.5×IQR][Q_1 - 1.5 \times IQR, Q_3 + 1.5 \times IQR]Phát hiện outlier

Lỗi thường gặp và cách tránh:

SaiĐúngGiải thích
cic_i = biên dưới nhómcic_i = trung điểm nhómGiá trị đại diện là giữa khoảng
s2s^2 có đơn vị gốcs2s^2 có đơn vị bình phươngChỉ ss có đơn vị gốc
Q2 = trung bìnhQ2 = trung vịQ2 chia đôi dữ liệu
So sánh ss khác đơn vịDùng CV khi khác đơn vịCV không phụ thuộc đơn vị
IQR phát hiện tất cả outlierChỉ dựa trên 1.5×IQRCó thể có outlier khác

Mẹo nhớ: “Q1-Q2-Q3 chia dữ liệu thành 4 phần bằng nhau, CV = s/x̄ so sánh phân tán”

Hoàn thành Chương 3! Chuyển sang Chương 4: Nguyên hàm và Tích phân

Last updated on