Spark-submit提交任务的常用参数

#参数名称 #含义
--cluster c3prc-hadoop #
--master MASTER_URL #可以是spark://host:port,mesos://host:port,yarn,yarn-cluster,yarn-client,local,local[K],local[*]
--deploy-mode DEPLOY_MODE #Driver程序运行的地方,client或者cluster
--class CLASS_NAME #主类名称,含包名
--name NAME #Application名称
--jars JARS #Driver依赖的第三方jar包
--py-files PY_FILES #用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip,.egg,.py文件列表
--files FILES #用逗号隔开的要放置在每个executor工作目录的文件列表
--properties-file  FILE #设置应用程序属性的文件路径,默认是conf/spark-defaults.conf
--driver-memory MEM #Driver程序使用内存大小

#

--driver-java-options
--driver-library-path Driver程序的库路径
--driver-class-path Driver程序的类路径
--executor-memory MEM #executor内存大小,默认1G

#

--driver-cores NUM #Driver程序的使用CPU个数,仅限于Spark standalone模式
--supervise #失败后是否重启Driver,仅限于Spark standalone模式
--total-executor-cores NUM #Executor使用的总核数,仅限于Spark standlone、Spark on Mesos模式

#

--executor-cores NUM #每个executor使用的内核数,默认为1,仅限于Spark on Yarn模式
--queue QUEUE_NAME #提交应用程序给哪个YARN的队列,默认是default队列,仅限于Spark on Yarn模式
--num-executors NUM #启动的executor数量,默认是2个,仅限于Spark on Yarn模式
--archives ARCHIVES #仅限于Spark on Yarn模式

#

输入spark-submit  -h就能得到上面的列表

#

通过conf制定sparkconfig配置
--conf spark.jmx.enable=true
--conf spark.file.transferTo=false
--conf spark.yarn.executor.memoryOverhead=2048
--conf spark.yarn.driver.memoryOverhead=2048

#

--conf spark.memory.fraction=0.35
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer
--conf spark.akka.frameSize=512
--conf spark.yarn.jar=hdfs://c3prc-hadoop/tmp/spark-assembly-1.6.1-mdh1.6.1.5-hadoop2.6.0-mdh3.4.2.jar

#

#PS:通过传递参数numPartitions指导Spark程序的repartitions操作

#

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容