回顾篇(三)——波士顿房价预测

时间:2017-05-14 19:30~22:30
地点:822实验室
参加人数:9人
主持人:刘开心
收获:了解网格搜索与交叉验证
印象之最:时间和节奏把控失衡,导致气氛不如上一次

内容

通过网格搜索和交叉验证的方式寻找决策树最优深度,实现对波士顿房价的预测。
主讲人:李聪蕊

活动流程

主持图

项目简介

这是一个回归问题。给出房子的地段、教学资源、大小和房间数等特征,预测房价。

项目流程回顾

  • 数据预处理:剔除遗失数据;剔除异常值;剔除不相关特征;将字符特征数值化。
  • 对回归数据进行简单分析:找最大值、最小值、平均值、中值、标准差。
import numpy as np
minimum_price = np.min(prices)
maximum_price = np.max(prices)
mean_price = np.mean(prices)
median_price = np.median(prices)
std_price = np.std(prices)
  • 定义衡量标准:使用决定系数R2来量化模型表现,详情请见知识篇——R2分数
  • 数据分割与重排:使用sklearn.odel_selection中的train_test_split,将数据分为测试集和训练集。
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(features, prices, test_size=0.2, random_state=50)
  • 分析模型表现:观察方差与偏差。方差影响模型的稳定性,偏差影响模型的正确性。
  • 用网格搜索和交叉验证寻找最优模型参数,训练出最优模型,预测数据。

分享产物

活动感想

刘开心:
这次的分享在时间和节奏上严重失控,其实中途很多次自己都觉得无聊。尾声的时候ArtistQiu提出这次活动的几个问题,当时情绪有些激动,这是我处理的很不好的地方,感谢好友的包容,会指出问题还不计前嫌的朋友都是真朋友。晚上反思了很多,写在这里mark一下,我知道,我们会越来越好。

NOTE20170514
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容