Tóm tắt lý thuyết
1.1. Khoảng biến thiên và khoảng tứ phân vị
– Khoảng biến thiên (R) = Giá trị lớn nhất – Giá trị nhỏ nhất. – Khoảng tứ phân vị: \({\Delta _Q} = {Q_3} – {Q_1}\) |
---|
Ý nghĩa:
– Dùng để đo độ phân tán của toàn bộ mẫu số liệu: Khoảng biến thiên càng lớn thì mẫu số liệu càng phân tán.
– Dùng để đo độ phân tán của một nửa các số liệu có giá trị thuộc đoạn từ \({Q_1}\) đến \({Q_3}\) trong mẫu.
– Không bị ảnh hưởng bởi các giá trị bất thường.
Ví dụ: Hãy tính khoảng biên thiên và khoảng tứ phân vị của mẫu số liệu: 10; 20; 3; 1; 3; 4; 7; 4; 9.
Giải
Xét mẫu số liệu đã sắp xếp là: \(1;3;3;4;4;7;9;10;20\)
+ Khoảng biến thiên của mẫu số liệu là: R = 20 – 1 = 19
+ Cỡ mẫu là n = 9 là số lẻ nên giá tị tứ phân vị thứ hai là: Q2 = 4
+ Tứ phân vị thứ nhất là trung vị của mẫu: 1; 3; 3; 4. Do đó Q1 = 3
+ Tử phân vị thứ ba là trung vị của mẫu: 7; 9; 10; 20. Do đó Q3 = 9,5.
+ Khoảng tứ phân vị của mẫu là: AQ = 9,5 – 3 = 6,5.
Giá trị ngoại lệ: \(x\) là giá trị ngoại lệ nếu \(\left[ \begin{array}{l}x < {Q_1} – 1,5.{\Delta _Q}\\x > {Q_3} + 1,5.{\Delta _Q}\end{array} \right.\)
1.2. Phương sai và độ lệch chuẩn
Cho mẫu số liệu \({x_1},{x_2},{x_3},…,{x_n}\), số trung bình là \(\overline x \) + Phương sai: \({s^2} = \frac{{{{({x_1} – \overline x )}^2} + {{({x_2} – \overline x )}^2} + … + {{({x_n} – \overline x )}^2}}}{n} = \frac{1}{n}({x_1}^2 + {x_2}^2 + … + {x_n}^2) – {\overline x ^2}\) + Độ lệch chuẩn: \(s = \sqrt {{s^2}} \) |
---|
Ý nghĩa: Nếu số liệu càng phân tán thì phương sai và độ lệch chuẩn càng lớn
Chú ý: Phương sai của mẫu số liệu cho dạng bảng tần số:
\({s^2} = \frac{{{m_1}{{({x_1} – \overline x )}^2} + {m_2}{{({x_2} – \overline x )}^2} + … + {m_k}{{({x_k} – \overline x )}^2}}}{n}\)
Với \({m_i}\) là tần số của giá trị \({x_i}\) và \(n = {m_1} + {m_2} + … + {m_k}\)
* Giả sử mẫu số liệu được cho dưới dạng bảng tần số:
Khi đó, công thức tính phương sai trở thành:
\({S^2} = \frac{1}{n}\left[ {{n_1}{{\left( {{x_1} – \overline x } \right)}^2} + {n_2}{{\left( {{x_2} – \overline x } \right)}^2} + … + {n_k}{{\left( {{x_k} – \overline x } \right)}^2}} \right]\)
trong đó n = n1 + n2 +…+ nk
Có thể biến đổi công thức tính phương sai trên thành:
\({S^2} = \frac{1}{n}\left( {{n_1}.x_1^2 + {n_2}.x_2^2 + … + {n_k}.x_k^2} \right) – {\overline x ^2}\).
Ví dụ: Điều tra một số học sinh về số cái bánh chưng mà gia đình mỗi bạn tiêu thụ trong địp Tết Nguyên đán, kết quả được ghi lại ở bảng sau. Hãy tính số trung bình và độ lệch chuẩn của mẫu sô liêu.
Giải
Số trung bình của mẫu số liệu trên là:
\(\overline x = \frac{1}{{40}}\left( {5.6 + 7.7 + 10.8 + 8.9 + 5.10 + 4.11 + 15} \right) = 8,5\).
Phương sai của mẫu số liệu trên là
\({S^2} = \frac{1}{{40}}\left( {{{5.6}^2} + {{7.7}^2} + {{10.8}^2} + {{8.9}^2} + {{5.10}^2} + {{4.11}^2} + {{15}^2}} \right) – 8,{5^2} = 3,25\)
Độ lệch chuẩn của mẫu số liệu là:
\(S = \sqrt {{S^2}} = \sqrt {3,25} \approx 1,80.\)
Bài tập minh họa
Câu 1: Hãy tìm khoảng biến thiên và khoảng tứ phân vị của các mẫu số liệu sau:
a) \(10;13;15;2;10;19;2;5;7\)
b) \(15;19;10;5;9;10;1;2;5;15\)
Hướng dẫn giải
a) Xét mẫu số liệu đã sắp xếp là: \(2;2;5;7;10;10;13;15;19\)
Khoảng biến thiên của mẫu số liệu là: \(R = 19 – 2 = 17.\)
Cỡ mẫu là \(n = 9\) là số lẻ nên giá trị tứ phân vị thứ hai là: \({Q_2} = 10.\)
Tứ phân vị thứ nhất là trung vị của mẫu: \(2;2;5;7\). Do đó \({Q_1} = 3,5\)
Tứ phân vị thứ ba là trung vị của mẫu: \(10;13;15;19\). Do đó \({Q_3} = 14\)
Khoảng tứ phân vị của mẫu là: \({\Delta _Q} = 14 – 3,5 = 10,5\)
b) Xét mẫu số liệu đã sắp xếp là: \(1;2;5;5;9;10;10;15;15;19\)
Khoảng biến thiên của mẫu số liệu là: \(R = 19 – 1 = 18.\)
Cỡ mẫu là \(n = 10\) là số chẵn nên giá trị tứ phân vị thứ hai là: \({Q_2} = 9,5.\)
Tứ phân vị thứ nhất là trung vị của mẫu: \(1;2;5;5;9\). Do đó \({Q_1} = 5.\)
Tứ phân vị thứ ba là trung vị của mẫu: \(10;10;15;15;19\). Do đó \({Q_3} = 15\)
Khoảng tứ phân vị của mẫu là: \({\Delta _Q} = 15 – 5 = 10\)
Câu 2: Bảng dưới đây thống kê tổng số giờ nắng trong năm 2019 theo từng tháng được đo bởi hai trạm quan sát khí tượng đặt ở Tuyên Quang và Cà Mau.
Tháng |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
12 |
Tuyên Quang |
25 |
89 |
72 |
117 |
106 |
177 |
156 |
203 |
227 |
146 |
117 |
145 |
Cà Mau |
180 |
223 |
257 |
245 |
191 |
111 |
141 |
134 |
130 |
122 |
157 |
173 |
a) Hãy tính phương sai và độ lệch chuẩn của dữ liệu từng tỉnh.
b) Nêu nhận xét về sự thay đổi tổng số giờ nắng theo từng tháng ở mỗi tỉnh.
Hướng dẫn giải
+) Tuyên Quang:
Số giờ nắng trung bình \(\overline x = \frac{{25 + 89 + 72 + 117 + 106 + 177 + 156 + 203 + 227 + 146 + 117 + 145}}{{12}} = 131,67\)
Phương sai: \({S^2} = \frac{1}{{12}}\left( {{{25}^2} + {{89}^2} + … + {{145}^2}} \right) – 131,{67^2} \approx 2921,2\)
Độ lệch chuẩn \(S = \sqrt {2921,2} \approx 54\)
+) Cà Mau:
Số giờ nắng trung bình \(\overline x = \frac{{180 + 223 + 257 + 245 + 191 + 111 + 141 + 134 + 130 + 122 + 157 + 173}}{{12}} = 172\)
Phương sai: \({S^2} = \frac{1}{{12}}\left[ {\left( {{{180}^2} + {{223}^2} + … + {{173}^2}} \right) – {{172}^2}} \right] = 2183\)
Độ lệch chuẩn \(S = \sqrt {2183} = 46,7\)
=> Nhận xét: Ở Tuyên Quang tổng số giờ nắng theo từng tháng thay đổi nhiều hơn so với ở Cà Mau.