spark（三）：spark的数据读取和保存

一、spark支持的文件格式

1、文本文件，每行一条记录

使用sc.textFile来读取一个文件，使用saveAsTextFile方法将RDD保存为一个文件

2、JSON格式文件，大多是每行一条记录

这里需要注意是每一行是一个JSON记录还是跨行的，如果是跨行的那么就要解析整个文件

3、CSV文件

4、SequenceFile基于键值对的hadoop文件格式

5、对象文件，其是基于java的序列化生成的文件

6、hadoop输入输出格式，其支持新旧两套hadoop的api

7、spark支持gzip、lzo、bzip2、zlib、Snappy几种压缩方式

二、文件系统

spark支持本地文件、云服务器文件、hdfs

再spark之中对某个文件执行sql结果是row组成的RDD文件，同时sparkSql可以读取任何的hive表

1、java数据库连接，需要构建一个jdbcRDD连接，并且将SparkContext传给这个RDD

2、Cassandre连接器，只能再java和scala之中使用

3、spark可以通过hadoop的输入格式来访问hbase

4、ES，使用ES连接器来连接ES