描述统计学相关概念笔记整理

数据描述的数值方法:

  • 集中趋势
    · 均值
    · 中位数
    · 众数
  • 离散程度
    · 极差
    · 方差
  • 分布的形状
    · 偏度
    · 峰度

集中趋势

定义:一组数据向其中心值靠拢的倾向和程度
测度:寻找数据的水平代表值或中心值
常用的测度指标:①均值②中位数③众数

  • 均值:是指在一组数据中所有数据之和再除以数据的个数。


    均值的数学表达式
  • 中位数(中值):对于有限的数集,可以通过把所有观察值按高低排序后找出正中间的一个数字作为中位数(如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数)
  • 众数:是指一组数中出现次数最多的数值,叫众数。(一组数据中可能存在多个众数,也可能不存在众数。众数不仅适用于数值型数据,对于非数值型数据也同样适用)

三种测度标准的优缺点:

测度类型 优点 缺点
均值 充分利用所有数据,适用性强 容易受到极端值影响
中位数 不受极端值影响 缺乏敏感性
众数 当数据具有明显的集中趋势时,代表性好,不受极端值影响 缺乏唯一性,可能有一个,可能有两个,可能一个都没有

离散程度

  • 偏差:期望预测与真实标记的误差称为偏差(bias),为了方便起见,我们一边直接取偏差的平方:


    偏差

    偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力

  • 极差:最大值-最小值。简单地描述数据的范围大小。
  • 方差:描述数据的离散程度,用来计算每一个变量(观察值)与总体均数之间的差异。


    方差
  • 噪声:真实标记与数据集中的实际标记间的偏差(噪声表达了在当前任务上任何学习算法所能达到的期望泛化误差的下限,即刻画了学习问题本身的难度)
  • 欠拟合:偏差大,方差小
  • 过拟合:偏差小,方差大

分布的形状

偏态:数据分布的不对称性叫做偏态
偏度系数:对数据分布的不对称性(即偏斜程度)的测度,偏态系数的绝对值越大,偏斜越严重
(左偏分布也称负偏分布:SK<0;对称分布:SK=0;右偏分布:SK>0)

峰度:数据分布的扁平或尖峰程度
峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示
(扁平分布:K<0;尖峰分布:K>0)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 目录 1. 数据类型1.1 数值数据连续和离散1.2 分类数据定序和定类1.3 数值数据和分类数据的比较 2. 概...
    IntoTheVoid阅读 4,733评论 1 3
  • 利用数据的图表展示数据,可以对数据的分布形状和特征有一个大致的了解。但是要全面的把握数据的分布特征,还需要找到反映...
    没有那么委屈阅读 7,344评论 0 4
  • 按照用途分类出以下统计函数: AVEDEV 用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例...
    四方院祭司阅读 8,009评论 0 3
  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 13,412评论 1 58
  • 一 夏天, 日子特别长, 特别不想睡觉, 早上五点多就来学校了。 纳闷早,来学校爪子? 耍,打乒乓。 哦,我知道了...
    咯多咯阅读 3,772评论 0 2