R整理数据
整齐的(经过整理的)数据资料可以方便地被操作、建模和可视化处理,而且拥有特定的结构(Tidy data,整洁数据):
- 每个变量是一列
- 每个观测值是一行
- 每个单元格恰好有一个数据值
dplyr和tidyr包
两个包定义了一系列的动词,可以用比较自然的方式进行数据整理。
dplyr动词
-
filter()基于逻辑标准的子数据集 -
select()选择特定的列 -
arrange()按列的值对行进行排序 -
rename()重新命名列 -
group_by()按常用变量对数据进行分组,以便进行计算 -
mutate()创建一个新变量 -
summarize()将数据汇总成为单行值
tidyr动词
-
gather()和spread()转换宽数据格式和长数据格式
-separate()andunite()将单列分成多列,反之亦然。
-complete()通过完成缺失数据组合,将隐式缺失值转换为显式缺失值
