数据分析的基础概念和模型 |《深入浅出数据分析》

这本书目前豆瓣评分7.6,理论上我不想拿8.0以下的书入门(最好是8.5以上)。所以犹豫了很久,但是读完发现这本书作为入门是很好的。如书中所说,这本书关注的是假设和建模范围的事情,能清楚地解释概念、模型,且能讲得通俗有趣,已经很不错了。豆瓣评分低大概是觉得太浅吧。

图片发自简书App

核心概念

  • 创建模型时,务必要规定假设中的各种变量的相互关系。不要假定两个变量是不相关的。# 变量间关系
  • 定义主观意愿?# 约束条件定义什么 容易忽略的约束条件
    例如某厂生产橡皮鸭和橡皮鱼,求问怎样的产量组合能获得最大利润。约束条件容易考虑橡胶量、生产时间、利润,容易忽略人们对两种产品的购买意愿。例如鱼的利润小但畅销,若追求利润最大而生产很多鱼但卖不出去,依然无法利润最大。
  • 散点图可判断因果关系,体现关系,但不能直接反映为什么两者有关
  • 因果关系通常是网状的,不是线性的
  • 随机事件

模型

最优化模型

  • 用途:给定约束条件下,求怎样的变量组合得到最优解
  • excel -> solver

贝叶斯规则

  • 用途:可以把新信息整合到已知信息中,修正主观概率:即在已有一个假设的概率时,新证据出现时,该假设还成立的概率。关键是求(估算):假设成立的条件下,新证据出现的概率

回归

  • 用途:线性回归、非线性等
  • 均方根差表示散点和回归线的差异,即线性回归的误差区间。

工具

散点图

  • 判断因果关系。y轴结果,x轴原因

证伪法

  • 用途:

1 用于几种假设都没有强烈证据支持的时候。区别于满意法,即挑一个觉得证据多的假设为真。这有可能忽略该假设反面证据,或者漏掉其他假设的支持证据。( which is 大多数人决策会使用的方法)

2 对一种未知情况做判断,可以提出几种具体假设再证伪。
例如 iPhone 何时发布

启发法与最优解

  • 用途:其中一种:别人用启发法来决策、给任务时,如果无法量化结果,可以选择说服对方换一种启发法。

直方图

  • 数据点在数值范围内的分布。(有多少人薪资在15k+,多少在30k+...)

软件

  • excel: 可以分隔数据(例如以分隔符隔开时)
  • R软件
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 本系列第三篇,承接前面的《浅谈机器学习基础》和《浅谈深度学习基础》。 自然语言处理绪论 什么是自然语言处理? 自然...
    我偏笑_NSNirvana阅读 18,071评论 2 68
  • 国庆假期阅读了几本数据分析相关的书,以读书笔记的方式推荐给大家。 本篇为 《深入浅出数据分析》/ 的读书笔记。 ...
    数据会说话阅读 8,684评论 0 12
  • 时间并不是连续的,时间只是一个片段一个片段的存在,在你希望的或者不希望的时候,形成一个固定的节点,有人适应节点,可...
    唯意soleone阅读 2,498评论 0 0
  • 网络阶段# 应用程序如何连接互联网## 1、基于HTTP协议 HTTP:超文本传输协议(Hyper-Text Ma...
    未完成1307阅读 2,271评论 0 1
  • 最近一直在赶场,昨天翘了黑马高管营开营,去见了班主任,却被女神一句话治愈了同事扎在心里的刺儿。 被班主任叫去喝茶,...
    L刘小四阅读 1,391评论 1 1