spark(三):spark的数据读取和保存

一、spark支持的文件格式

1、文本文件,每行一条记录

    使用sc.textFile来读取一个文件,使用saveAsTextFile方法将RDD保存为一个文件

2、JSON格式文件,大多是每行一条记录

    这里需要注意是每一行是一个JSON记录还是跨行的,如果是跨行的那么就要解析整个文件

3、CSV文件

4、SequenceFile基于键值对的hadoop文件格式

5、对象文件,其是基于java的序列化生成的文件

6、hadoop输入输出格式,其支持新旧两套hadoop的api

7、spark支持gzip、lzo、bzip2、zlib、Snappy几种压缩方式

二、文件系统

spark支持本地文件、云服务器文件、hdfs

三、sparkSql之中的结构化数据

再spark之中对某个文件执行sql结果是row组成的RDD文件,同时sparkSql可以读取任何的hive表

四、数据库

1、java数据库连接,需要构建一个jdbcRDD连接,并且将SparkContext传给这个RDD

2、Cassandre连接器,只能再java和scala之中使用

3、spark可以通过hadoop的输入格式来访问hbase

4、ES,使用ES连接器来连接ES

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容