本课索引
| 代码 | 说明 |
|---|---|
| ---导入pandas--- | |
| import pandas as pd | 导入pandas包并将之简写为pd |
| ---创建pandas中的DataFrame和Series--- | |
| pd.DataFrame() | 创建 pandas DataFrame |
| pd.Series() | 创建 pandas Series |
| ---数据选择--- | |
| df.column_name | 选取数据框的某一列,生成Series格式数据,df为数据框,column_name为列名 |
| df['column_name'] | 选取数据框的某一列,生成Series格式数据 |
| df[['column_name']] | 选取数据框的列,生成DataFrame格式数据 |
| df.loc[ ] | 使用行和列的标签索引选取数据 |
| df.iloc[ ] | 使用行和列的数值索引选取数据 |
| ---导入csv格式数据--- | |
| pd.read_csv() | 在pandas中读取csv文本格式数据 |
| ---观察数据框--- | |
| df.head() | 查看数据框df的前几行数据 |
| df.tail() | 查看数据框df的最后几行数据 |
| df.info() | 获取数据框df的信息 |
| df.describe() | 获取数据框df的各项统计值 |
| df.index | 查看数据框df的行索引 |
| df.columns | 查看数据框df的列名 |
| df.shape | 查看数据框df的形状,行数和列数 |
| ---Series数据的一些统计分析函数--- | |
| se.unique() | 获取Series数据中的数值种类,一般用于分类数据,这里se为Series格式数据 |
| se.value_counts() | 统计Series数据中的数值种类及其对应的数据个数 |
| se.mean() | 计算Series数据的均值 |
| se.std() | 计算Series数据的标准差 |
| se.median() | 计算Series数据的中位数 |
| se.max() | 计算Series数据的最大值 |
| se.min() | 计算Series数据的最小值 |
| se.count() | 计算Series数据的个数 |
| ---pandas绘图函数--- | |
| df.plot(kind='scatter', x= , y= ) | 绘制散点图 |
| df.plot(kind='box') | 绘制箱图 |
| df.boxplot(by='column_name') | 绘制箱图,并按 column_name 这一列的分类数值进行分组 |
| groupby | 数据的分组 |
| 数据的聚合 | |
| 内置函数 | count、mean、sum、max |
| 自定义函数 | agg:将一组数据聚合成标量的形式 |
| 自定义函数 | apply:将多组数据聚合运算 |
| def 函数名(参数): | |
| 函数体 | |
| return 函数命令 | 自定义函数 |
