TensorFlow多机分布执行节点概念

多机自然组成集群Cluster。

Cluster由多个任务task组成,也就是多个server(计算节点)。

Task分组到job,job按任务的角色来定义,同一job的任务具有相同的角色。

按角色常见有参数节点类,parameter server,简称ps,保持追踪模型的参数。另一种即计算节点,perform computation,简称worker。

TF中,类tf.train.ClusterSpec定义集群,格式为job到servers列表对应。 server为暴露tcp端口来提供服务的TS服务实例,可以设定其对应使用的CPU或者GPU(统称device)。

GPU/CPU分配,TF由函数tf.device负责,可自己重定义来动态分配。

图片发自简书App
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容