-
数据与变量
-
数据的例子
- 凡是可以电子化记录的其实都是数据,这里所说的记录不是靠自然人的大脑,而是通过必要的信息化技术和电子化手段。
-
数据
- 结构化数据(表格中储存的)
- 非结构化数据(文本数据,音频,图像)
-
变量的类型
-
定量变量
- 例如:五年级男生身高,某款汽车的速度。
-
定性变量
- 例如:性别,职业等。
-
总体·样本和统计量
-
总体和分布
- 我们把研究对象的全体称为总体,其中每个成员称为个体。
-
推断类型
- 参数推断(分布形式已知)
- 非参数推断(分布形式未知)
-
样本
-
判断数据是否满足正态分布
- 1.图形:直方图,经验分布函数,P-P图,Q-Q图
- 2.k经验,m经验
-
如果检测出数据不满足正态分布转化为正态分布
- 1.增大样本量
- 2.BOX-COX转换
-
样本二重性
- 概率论角度:随机变量
- 应用角度:数值
-
统计量
-
样本
- 样本均值:
-
样本方差:
- 自由度:n:样本个数 k:约束条件个数
- 无偏估计量:E(s²)=σ²
- 样本标准差:
- 次序统计量:X₁<.........<Xn
-
从样本认识主体的图表方法
-
频数频率表与直方图
-
直方图
- (1)排序→次序统计量
- (2)分区间:R=Xmax-Xmin(极差)
-
饼图与条形图
- 直方图:是对连续型随机变量或离散型随机变量所对应的总体分布的估计
- 饼图:是对于分类型变量或离散型变量所对应的总体分布的估计
-
样本的经验分布函数
- 分布函数:
- 经验分布函数:
-
高维数据的图表展示方法
-
对于一维连续型变量我们可以绘制
- 直方图
- 核密度估计曲线
- 经验分布图
-
‘对于一维离散变量我们可以绘制
- 条形图
- 饼形图
-
对于两个连续变量(X,Y)我们可以绘制
- 散点图
- 二维等高线图
- QQ图
-
对于两个离散变量我们可以绘制
- 分组条形图
- 交叉列联表
-
对于一个离散变量和一个连续变量可以绘制
- 分组箱线图
-
数据变换
- 非正态分布→正态分布(对数转换)
-
次序统计量
-
次序统计量概念
-
样本极差
-
样本中位数与样本p分位数
-
箱线图和Q-Q图
- 箱线图可用于对总体的分布形状进行大致的判断。
- Q-Q图是比较两个数据分布或者一个数据的分布与一个理论分布是否类似的图表。
-
抽样分布
-
样本均值的抽样分布
- 样本均值的抽样分布是所有的样本均值形成的分布,即μ的概率分布。样本均值的抽样分布在形状上却是对称的。
-
正态总体各统计量的分布
- χ²分布
- t分布
- F分布