数据分析相关术语

ETL:分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写,也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。

ETL包含了三方面:
“抽取”:将数据从各种原始的业务系统中读取出来,这是所有工作的前提。
“转换”:按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。
“装载”:将转换完的数据按计划增量或全部导入到数据仓库中。

阅读翻译过来的中文书籍的时候常见额术语(如果英语还可以建议读原版):
时间戳:
时间间隔:
固定时期:
Numpy:Numerical Python简称
dtype:数据类型
矢量化:vectorization
广播:broadcasting
花式索引:Fancy indexing
转置:transpose
通用函数:ufunc
聚合计算:aggregation,通常叫做约简
NaN:not a number
层次化索引:Hierarchical indexing
类型推断:type inference
JSON:Javascript Object Notation
XML:Extensible Markup Language

数据挖掘导论
PCA:Principal Components Analysis,主成分分析
SVD:Singular Value Decomposition,奇异值分解
关联分析:association analysis
支持向量机:support vector machines,SVM
贝叶斯信念网络:Bayesian belief networks,BNN
联机分析处理:On-Line Analytical Processing,OLAP
分类:classification
回归:regression

神经网络:Back Propagation,BP

DBMS:Datebase Management System,数据库管理系统。
RDBMS:Relational Datebase Management System,关系数据库管理系统

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容