用样本估计总体

📘 统计与概率综合·
⭐⭐⭐
·样本代表性、误差

🎯 学习目标

  • 理解样本与总体的关系,知道如何用样本估计总体
  • 掌握样本代表性的含义及其对估计结果的影响
  • 认识抽样误差的存在,并能初步判断估计的可靠性

📚 核心概念

在统计中,我们常常无法调查整个总体(比如全校学生的身高),于是通过抽取一部分个体组成样本,用样本的数据来估计总体的情况。这种做法叫“用样本估计总体”。

关键在于:样本要有代表性。如果样本只来自某一个班级、某一性别或某一年级,那它可能不能反映全校的真实情况,这样的估计就会有偏差。

即使样本具有代表性,由于随机性,样本统计量(如样本平均数 xˉ\bar{x})和总体参数(如总体平均数 μ\mu)之间仍可能存在差异,这种差异称为抽样误差。样本越大,通常误差越小,估计越可靠。

例如,若从1000名学生中随机抽取100人测身高,计算出平均身高为160 cm,我们可以用160 cm作为全校学生平均身高的估计值。但要注意:这只是估计,真实值可能略高或略低,这就是误差。

📝 关键公式

  • 样本平均数xˉ=1n(x1+x2++xn)\bar{x} = \frac{1}{n}(x_1 + x_2 + \cdots + x_n)
    示例:5个学生的成绩为80, 85, 90, 75, 95,则 xˉ=80+85+90+75+955=85\bar{x} = \frac{80+85+90+75+95}{5} = 85
  • 用样本比例估计总体比例:若样本中有 kk 个个体具有某特征,样本容量为 nn,则总体中该特征的比例可估计为 p^=kn\hat{p} = \frac{k}{n}
    示例:抽查200盏灯,发现10盏不合格,则不合格率估计为 p^=10200=0.05\hat{p} = \frac{10}{200} = 0.05(即5%)。

💡 经典例题

例题1(基础):某校有1200名学生。为了解他们每天锻炼的时间,随机抽取60名学生调查,得到平均每天锻炼时间为35分钟。问:能否用这个结果估计全校学生平均锻炼时间?为什么?

解题过程

  1. 样本是随机抽取的,因此具有代表性;
  2. 样本容量60相对于总体1200来说合理(一般认为≥30即可初步使用);
  3. 因此可以用样本平均数35分钟作为全校学生平均锻炼时间的估计值。

例题2(进阶):某工厂一天生产10000个零件。质检员随机抽取200个检测,发现有8个次品。 (1)估计这批零件的次品率; (2)若有人质疑:“只查了200个,不准!”,你如何回应?

解题过程: (1)样本中次品数 k=8k=8,样本容量 n=200n=200, 次品率估计为 p^=8200=0.04=4%\hat{p} = \frac{8}{200} = 0.04 = 4\%

(2)回应要点:

  • 抽样是随机的,样本具有代表性;
  • 虽然存在抽样误差,但200个样本已足够大,估计较可靠;
  • 全部检查成本太高,抽样是科学且高效的方法。

⚠️ 易错点

  • 误以为样本越大越好而不考虑代表性:即使样本很大,如果不是随机抽取(如只选男生),结果仍会偏。应确保随机抽样
  • 忽略误差,把估计值当精确值:样本估计总有误差,应说“大约”“估计为”,而不是“就是”。
  • 用方便样本代替随机样本:比如只调查自己班的同学就推断全校,这会导致偏差。应使用简单随机抽样等方法。
  • 混淆样本统计量与总体参数:记住 xˉ\bar{x} 是样本平均数,μ\mu 是总体平均数,两者不一定相等。