数据分析综合

📘 数据的分析·
⭐⭐⭐
·综合应用、决策

🎯 学习目标

  • 能综合运用平均数、中位数、众数和方差等统计量分析实际问题
  • 能根据数据分析结果做出合理决策或提出建议
  • 能识别不同统计量在描述数据时的优缺点,并选择合适的指标进行比较

📚 核心概念

数据分析综合是指将多个统计量(如平均数、中位数、众数、方差等)结合起来,全面理解一组数据的集中趋势和离散程度,从而对实际问题做出判断或决策。

  • 平均数:反映数据的“平均水平”,计算公式为 xˉ=1ni=1nxi\bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i。但它容易受极端值影响。
  • 中位数:将数据从小到大排列后位于中间的数(若个数为偶数,则取中间两数的平均)。它不受极端值干扰,适合描述偏态分布。
  • 众数:数据中出现次数最多的数值,适用于分类数据或寻找“最常见”情况。
  • 方差:衡量数据波动大小,公式为 s2=1ni=1n(xixˉ)2s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2。方差越小,数据越稳定。

在实际问题中(如比较两个班级成绩、评估产品稳定性等),不能只看单一指标。例如,两个球队平均得分相同,但一个队得分波动大(方差大),另一个队发挥稳定(方差小),决策时应结合方差判断可靠性。

📝 关键公式

  • 平均数xˉ=x1+x2++xnn\bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n}
    • 示例:数据 3, 5, 7 的平均数为 3+5+73=5\frac{3+5+7}{3} = 5
  • 中位数:排序后取中间值
    • 示例:数据 2, 4, 6, 8 的中位数为 4+62=5\frac{4+6}{2} = 5
  • 众数:出现频率最高的数
    • 示例:数据 1, 2, 2, 3 的众数是 2
  • 方差s2=1ni=1n(xixˉ)2s^2 = \frac{1}{n}\sum_{i=1}^{n}(x_i - \bar{x})^2
    • 示例:数据 1, 3, 5 的平均数为 3,方差为 (13)2+(33)2+(53)23=832.67\frac{(1-3)^2 + (3-3)^2 + (5-3)^2}{3} = \frac{8}{3} \approx 2.67

💡 经典例题

例题1(基础):某公司招聘员工,甲、乙两人面试成绩如下(满分10分):

  • 甲:8, 9, 7, 8, 8
  • 乙:10, 6, 9, 8, 7

问:谁的表现更稳定?谁的平均水平更高?

  1. 计算平均数:
    • 甲:xˉ=8+9+7+8+85=8\bar{x}_甲 = \frac{8+9+7+8+8}{5} = 8
    • 乙:xˉ=10+6+9+8+75=8\bar{x}_乙 = \frac{10+6+9+8+7}{5} = 8 → 平均水平相同。
  2. 计算方差:
    • 甲:s2=(88)2+(98)2+(78)2+(88)2+(88)25=25=0.4s_甲^2 = \frac{(8-8)^2 + (9-8)^2 + (7-8)^2 + (8-8)^2 + (8-8)^2}{5} = \frac{2}{5} = 0.4
    • 乙:s2=(108)2+(68)2+(98)2+(88)2+(78)25=105=2s_乙^2 = \frac{(10-8)^2 + (6-8)^2 + (9-8)^2 + (8-8)^2 + (7-8)^2}{5} = \frac{10}{5} = 2
  3. 结论:两人平均分相同,但甲的方差更小,表现更稳定。

例题2(进阶):学校要选派一支篮球队参加比赛。A队和B队最近5场得分如下:

  • A队:60, 65, 70, 65, 60
  • B队:50, 80, 70, 60, 60

如果你是教练,你会选哪支队伍?说明理由。

  1. 计算平均分:
    • A队:xˉA=60+65+70+65+605=64\bar{x}_A = \frac{60+65+70+65+60}{5} = 64
    • B队:xˉB=50+80+70+60+605=64\bar{x}_B = \frac{50+80+70+60+60}{5} = 64
  2. 计算中位数:
    • A队排序:60, 60, 65, 65, 70 → 中位数 = 65
    • B队排序:50, 60, 60, 70, 80 → 中位数 = 60
  3. 计算方差:
    • A队:sA2=(6064)2+(6564)2+(7064)2+(6564)2+(6064)25=16+1+36+1+165=14s_A^2 = \frac{(60-64)^2 + (65-64)^2 + (70-64)^2 + (65-64)^2 + (60-64)^2}{5} = \frac{16+1+36+1+16}{5} = 14
    • B队:sB2=(5064)2+(8064)2+(7064)2+(6064)2+(6064)25=196+256+36+16+165=104s_B^2 = \frac{(50-64)^2 + (80-64)^2 + (70-64)^2 + (60-64)^2 + (60-64)^2}{5} = \frac{196+256+36+16+16}{5} = 104
  4. 分析:
    • 平均分相同,但A队方差小(发挥稳定),中位数更高(多数场次得分高于B队)。
  5. 决策:选A队,因为稳定性更重要,避免大起大落。

⚠️ 易错点

  • 只看平均数,忽略波动性:平均数相同不代表表现一样,需结合方差判断稳定性。
  • 混淆中位数和平均数的适用场景:当数据有极端值(如一个极高分)时,用中位数更合理。
  • 误认为众数一定存在或唯一:有些数据没有众数(如所有数都不同),有些有多个众数。
  • 计算方差时忘记先求平均数:必须先算出 xˉ\bar{x},再代入方差公式。
  • 在决策时不结合实际背景:例如选运动员时,稳定性可能比偶尔高分更重要,要根据问题目标选择指标。