pandas库学习(九) 汇总和计算描述统计

提取完数据后，通常要对数据进行汇总，统计和计算，看看pandas有哪些操作。
df = DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=['a','b','c','d'],columns=['one','two'])

    one  two
a  1.40  NaN
b  7.10 -4.5
c   NaN  NaN
d  0.75 -1.3

求和操作，会自动忽略为NaN的值：
df.sum()

one    9.25
two   -5.80
dtype: float64

也可以横向相加，比如：
df.sum(axis=1)

a    1.40
b    2.60
c    0.00
d   -0.55
dtype: float64

求平均值，会自动忽略NaN，但我们也可以手动设置不忽略
df.mean(axis=1,skipna=False)

a      NaN
b    1.300
c      NaN
d   -0.275
dtype: float64

可以一次性返回多个统计数据：
df.describe()

            one       two
count  3.000000  2.000000
mean   3.083333 -2.900000
std    3.493685  2.262742
min    0.750000 -4.500000
25%    1.075000 -3.700000
50%    1.400000 -2.900000
75%    4.250000 -2.100000
max    7.100000 -1.300000

如果不是数值类型会返回另一种结果
obj = Series(['a','a','b','c']*4)

0     a
1     a
2     b
3     c
4     a
5     a
6     b
7     c
8     a
9     a
10    b
11    c
12    a
13    a
14    b
15    c
dtype: object

obj.describe()

count     16
unique     3
top        a
freq       8
dtype: object

总结一波：
count 非NA值的数量
describe 针对Series或各DataFrame列计算汇总统计
min,max 计算最小值和最大值
argmin,argmax 计算能够获取到最小值和最大值的索引位置（整数)
idxmin,idxmax 计算能够获取到最小值和最大值的索引值
quantile 计算样本的分位数（0到 1）
sum 值的总和
mean 值的平均数
media 值的算术中位数（50%分位数)
mad 根据平均值计算平均绝对离差
var 样本值的方差
std 样本值的标准差
skew 样本值的偏度（三阶矩）
kurt 样本值的峰度（四阶矩）
cumsum 样本值的累计和
cummin,cummax 样本值的累计最大值和累计最小
cumprod 样本值的累计积
diff 计算一阶差分（对时间序列很有用)
pct_change 计算百分数变化

pandas库学习(九) 汇总和计算描述统计

推荐阅读更多精彩内容