Spark-submit提交任务的常用参数

#参数名称 #含义
--cluster c3prc-hadoop #
--master MASTER_URL #可以是spark://host:port,mesos://host:port,yarn,yarn-cluster,yarn-client,local，local[K]，local[*]
--deploy-mode DEPLOY_MODE #Driver程序运行的地方，client或者cluster
--class CLASS_NAME #主类名称，含包名
--name NAME #Application名称
--jars JARS #Driver依赖的第三方jar包
--py-files PY_FILES #用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip,.egg,.py文件列表
--files FILES #用逗号隔开的要放置在每个executor工作目录的文件列表
--properties-file FILE #设置应用程序属性的文件路径，默认是conf/spark-defaults.conf
--driver-memory MEM #Driver程序使用内存大小

--driver-java-options
--driver-library-path Driver程序的库路径
--driver-class-path Driver程序的类路径
--executor-memory MEM #executor内存大小，默认1G

--driver-cores NUM #Driver程序的使用CPU个数，仅限于Spark standalone模式
--supervise #失败后是否重启Driver，仅限于Spark standalone模式
--total-executor-cores NUM #Executor使用的总核数，仅限于Spark standlone、Spark on Mesos模式

--executor-cores NUM #每个executor使用的内核数，默认为1，仅限于Spark on Yarn模式
--queue QUEUE_NAME #提交应用程序给哪个YARN的队列，默认是default队列，仅限于Spark on Yarn模式
--num-executors NUM #启动的executor数量，默认是2个，仅限于Spark on Yarn模式
--archives ARCHIVES #仅限于Spark on Yarn模式

输入spark-submit -h就能得到上面的列表

通过conf制定spark的config配置
--conf spark.jmx.enable=true
--conf spark.file.transferTo=false
--conf spark.yarn.executor.memoryOverhead=2048
--conf spark.yarn.driver.memoryOverhead=2048

--conf spark.memory.fraction=0.35
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer
--conf spark.akka.frameSize=512
--conf spark.yarn.jar=hdfs://c3prc-hadoop/tmp/spark-assembly-1.6.1-mdh1.6.1.5-hadoop2.6.0-mdh3.4.2.jar

#PS：通过传递参数numPartitions指导Spark程序的repartitions操作

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Spark-submit提交任务的常用参数

Spark-submit提交任务的常用参数

推荐阅读更多精彩内容

友情链接更多精彩内容