登录注册写文章

HDFS小文件合并时遇到的几个小问题

分裂四人组

HDFS小文件合并时遇到的几个小问题

1. 如何“非正则”地遍历一个目录下某些特定的文件？

在spark中newHadoopAPI()或者FSShell其实都是支持正则话输入路径的，不要怕输入的路径太长，一定要正则化输入路径；

2. 在读取->repartition->重新再写入的过程中，遇到序列化失败该如何处理？

尽量使用kyro序列化，兼容性还是比较好；
同时注意null值的处理；

最后编辑于：2017.12.10 03:32:47

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
草里有只羊阅读 18,436评论 0赞 85
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames...
Spark SQL, DataFrames and Datasets Guide Overview SQL Dat...
Joyyx阅读 12,587评论 0赞 16

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,369评论 19赞 139
Python--Flask Django等常用库总结
# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
aimaile阅读 26,699评论 6赞 427
awesome-android
afinalAfinal是一个android的ioc，orm框架 https://github.com/yangf...
passiontim阅读 15,669评论 2赞 45

赞1赞

赞赏

手机看全文