一、spark支持的文件格式
1、文本文件,每行一条记录
使用sc.textFile来读取一个文件,使用saveAsTextFile方法将RDD保存为一个文件
2、JSON格式文件,大多是每行一条记录
这里需要注意是每一行是一个JSON记录还是跨行的,如果是跨行的那么就要解析整个文件
3、CSV文件
4、SequenceFile基于键值对的hadoop文件格式
5、对象文件,其是基于java的序列化生成的文件
6、hadoop输入输出格式,其支持新旧两套hadoop的api
7、spark支持gzip、lzo、bzip2、zlib、Snappy几种压缩方式
二、文件系统
spark支持本地文件、云服务器文件、hdfs
三、sparkSql之中的结构化数据
再spark之中对某个文件执行sql结果是row组成的RDD文件,同时sparkSql可以读取任何的hive表
四、数据库
1、java数据库连接,需要构建一个jdbcRDD连接,并且将SparkContext传给这个RDD
2、Cassandre连接器,只能再java和scala之中使用
3、spark可以通过hadoop的输入格式来访问hbase
4、ES,使用ES连接器来连接ES
