Statistics「统计学」
约 2393 字大约 8 分钟
2026-05-18
Resource: PDF by OpenStax.
Chap01 - 抽样与数据
Chapter Objectives
- 认识、辨别关键术语
- 将不同采样方法与不同类型的数据联系起来
- 制作频率分布表
统计学、概率论及相关术语的定义
统计学是一门研究数据的收集、分析、解读和呈现的学科。在日常生活中,我们无时无刻不在接触和使用数据。
概率
一枚硬币抛 4 次,结果不一定是 2 次正面和 2 次反面。但如果是 4000 次,结果就很可能是 2000 次正面和 2000 次反面。
概率是一种用于研究随机现象的数学工具。它用来描述某事件发生的概率或可能性。
「概率论」最初是随着对扑克等概率游戏的研究而产生的。各种预测实际上都是以概率的形式来表达的。无论是预测地震或降雨的可能性,还是预测你在这门课程中能否取得 A 级成绩,我们都使用概率来进行分析。医生们也利用概率来评估接种疫苗后,是否有可能反而引发该疫苗原本旨在预防的疾病。
关键术语
在统计学中,我们通常希望研究整个总体。所谓「总体」,指的是我们所研究的所有人、物或对象的集合。
为了研究这个总体,我们需要选取一个样本。「抽样」的目的就是从总体中挑选出一部分作为样本,通过研究这个样本来了解总体的情况。数据其实就是从总体中抽样所得的结果。
由于对整个人群进行调查需要耗费大量时间和金钱,因此抽样是一种非常实用的方法。如果你想计算学校全体学生的平均成绩,那么选取一部分在校学生作为样本是比较合理的。
从样本数据中,我们可以计算出各种「统计量」。统计量是一种用来表示样本特征的数值。例如,如果我们把某个数学班视为所有数学班的样本,那么该班级学生在学期末的平均成绩就是一个统计量的例子。
统计量实际上是对总体参数的估计。「参数」是指整个总体的某种数值特征,而统计量则可以用来估计这些参数。由于我们将所有数学班视为总体,那么所有数学班中每名学生的平均成绩则属于参数的范畴。
在「英雄联盟」中,某些版本英雄与总体英雄的参数严重不符(梅尔),我们称之为「超标」。
在统计学领域,人们最关心的问题之一就是:某个统计量在估计某个参数时的「准确性」如何。这种准确性实际上取决于样本在多大程度上能够代表总体。只有当样本具备总体的各种特征时,它才能被视为具有代表性的样本。在推断统计学中,我们既关注样本统计量,也关注总体参数。在后面的章节中,我们将利用样本统计量来检验所估计的总体参数是否准确。
「变量」通常用大写字母来表示,比如 X 和 Y。变量指的是可以针对总体中的每一个成员来确定的某种特征或数值。变量可以是数值型的,也可以是分类型的。
数值型变量具有相同的计量单位,比如以磅为单位的重量、以小时为单位的时间等。分类型变量则将人或事物归入不同的类别。
如果让 X 表示某位数学学生在学期末所获得的分数,那么 X 就是数值型变量。如果让 Y 表示一个人的政治党派归属,那么 Y 的值可以是共和党、民主党或无党派人士。Y 就是分类型变量。我们可以对 X 的值进行数学运算(比如计算平均分),但对 Y 的值进行数学运算则没有意义(因为无法计算出“平均党派归属”这样的概念)。
切比雪夫不等式
μ({x∈X:∣f(x)∣≥t})≤t21∫Xf2dμ.