Resume and JobRESUME AND JOB
Tencent logo

太极GPU智能调度专家(深圳/北京/上海/杭州)

Tencent

Engineering Jobs

太极GPU智能调度专家(深圳/北京/上海/杭州)

full-timePosted: Nov 19, 2025

Job Description

太极GPU智能调度专家(深圳/北京/上海/杭州)

📋 Job Overview

Tencent is seeking a Taiji GPU Intelligent Scheduling Expert to lead the strategic planning and architecture design of global resource scheduling systems for large-scale GPU clusters. The role focuses on optimizing resource utilization, resolving performance bottlenecks in distributed training, and developing high-availability scheduling frameworks using cloud-native technologies. Responsibilities include exploring cutting-edge technologies like hybrid cloud and heterogeneous computing to drive innovation in compute resource scheduling platforms.

📍 Location: Shenzhen, China

🏢 Business Unit: TEG

📄 Full Description

1.主导万卡级 GPU 集群全局资源调度体系的战略规划与架构设计,通过构建动态资源画像、智能负载预测及精细化调度策略,实现资源利用率显著提升,保障离线训练与在线推理任务的高效稳定运行;
2.深入解析 RDMA 协议栈、分布式存储 IO 路径与计算资源的协同机制,定位并攻克大规模训练任务中的网络瓶颈、存储延迟等性能卡点,优化数据流转全链路吞吐量,支撑超大规模模型高效训练;
3.基于 Kubernetes、Docker 等云原生技术栈,主导高可用调度框架的架构设计与核心模块开发,深度适配分布式训练框架(如 Megatron-LM、DeepSpeed)需求,实现任务智能编排、自动化容灾与混合部署能力;深入 K8s 调度器源码级优化、CSI 插件定制开发及 CRD 扩展设计,推动大规模训推一体化技术落地;
4.牵头探索混合云资源池化、虚拟化技术(如 KVM / 容器虚拟化)、ARM 异构计算等前沿方向的技术验证与方案落地,制定技术演进路线图,持续推动计算资源调度平台的能力升级与技术创新;
5.沉淀大规模集群调度最佳实践与技术方法论,主导跨团队技术协作(如框架、硬件、网络团队),解决调度领域复杂技术难题,支撑业务高速增长。

🎯 Key Responsibilities

  • 主导万卡级 GPU 集群全局资源调度体系的战略规划与架构设计,通过构建动态资源画像、智能负载预测及精细化调度策略,实现资源利用率显著提升,保障离线训练与在线推理任务的高效稳定运行
  • 深入解析 RDMA 协议栈、分布式存储 IO 路径与计算资源的协同机制,定位并攻克大规模训练任务中的网络瓶颈、存储延迟等性能卡点,优化数据流转全链路吞吐量,支撑超大规模模型高效训练
  • 基于 Kubernetes、Docker 等云原生技术栈,主导高可用调度框架的架构设计与核心模块开发,深度适配分布式训练框架(如 Megatron-LM、DeepSpeed)需求,实现任务智能编排、自动化容灾与混合部署能力;深入 K8s 调度器源码级优化、CSI 插件定制开发及 CRD 扩展设计,推动大规模训推一体化技术落地
  • 牵头探索混合云资源池化、虚拟化技术(如 KVM / 容器虚拟化)、ARM 异构计算等前沿方向的技术验证与方案落地,制定技术演进路线图,持续推动计算资源调度平台的能力升级与技术创新
  • 沉淀大规模集群调度最佳实践与技术方法论,主导跨团队技术协作(如框架、硬件、网络团队),解决调度领域复杂技术难题,支撑业务高速增长

🛠️ Required Skills

  • RDMA 协议栈
  • 分布式存储 IO 路径
  • Kubernetes
  • Docker
  • 分布式训练框架(如 Megatron-LM、DeepSpeed)
  • K8s 调度器源码级优化
  • CSI 插件定制开发
  • CRD 扩展设计
  • 混合云资源池化
  • 虚拟化技术(如 KVM / 容器虚拟化)
  • ARM 异构计算

Locations

  • Shenzhen, China

Salary

Estimated Salary Rangemedium confidence

800,000 - 1,500,000 CNY / yearly

Source: ai estimated

* This is an estimated range based on market data and may vary based on experience and qualifications.

Skills Required

  • RDMA 协议栈intermediate
  • 分布式存储 IO 路径intermediate
  • Kubernetesintermediate
  • Dockerintermediate
  • 分布式训练框架(如 Megatron-LM、DeepSpeed)intermediate
  • K8s 调度器源码级优化intermediate
  • CSI 插件定制开发intermediate
  • CRD 扩展设计intermediate
  • 混合云资源池化intermediate
  • 虚拟化技术(如 KVM / 容器虚拟化)intermediate
  • ARM 异构计算intermediate

Responsibilities

  • 主导万卡级 GPU 集群全局资源调度体系的战略规划与架构设计,通过构建动态资源画像、智能负载预测及精细化调度策略,实现资源利用率显著提升,保障离线训练与在线推理任务的高效稳定运行
  • 深入解析 RDMA 协议栈、分布式存储 IO 路径与计算资源的协同机制,定位并攻克大规模训练任务中的网络瓶颈、存储延迟等性能卡点,优化数据流转全链路吞吐量,支撑超大规模模型高效训练
  • 基于 Kubernetes、Docker 等云原生技术栈,主导高可用调度框架的架构设计与核心模块开发,深度适配分布式训练框架(如 Megatron-LM、DeepSpeed)需求,实现任务智能编排、自动化容灾与混合部署能力;深入 K8s 调度器源码级优化、CSI 插件定制开发及 CRD 扩展设计,推动大规模训推一体化技术落地
  • 牵头探索混合云资源池化、虚拟化技术(如 KVM / 容器虚拟化)、ARM 异构计算等前沿方向的技术验证与方案落地,制定技术演进路线图,持续推动计算资源调度平台的能力升级与技术创新
  • 沉淀大规模集群调度最佳实践与技术方法论,主导跨团队技术协作(如框架、硬件、网络团队),解决调度领域复杂技术难题,支撑业务高速增长

Target Your Resume for "太极GPU智能调度专家(深圳/北京/上海/杭州)" , Tencent

Get personalized recommendations to optimize your resume specifically for 太极GPU智能调度专家(深圳/北京/上海/杭州). Takes only 15 seconds!

AI-powered keyword optimization
Skills matching & gap analysis
Experience alignment suggestions

Check Your ATS Score for "太极GPU智能调度专家(深圳/北京/上海/杭州)" , Tencent

Find out how well your resume matches this job's requirements. Get comprehensive analysis including ATS compatibility, keyword matching, skill gaps, and personalized recommendations.

ATS compatibility check
Keyword optimization analysis
Skill matching & gap identification
Format & readability score

Tags & Categories

TencentShenzhenChinaTEGTEG

Answer 10 quick questions to check your fit for 太极GPU智能调度专家(深圳/北京/上海/杭州) @ Tencent.

Quiz Challenge
10 Questions
~2 Minutes
Instant Score

Related Books and Jobs

No related jobs found at the moment.

Tencent logo

太极GPU智能调度专家(深圳/北京/上海/杭州)

Tencent

Engineering Jobs

太极GPU智能调度专家(深圳/北京/上海/杭州)

full-timePosted: Nov 19, 2025

Job Description

太极GPU智能调度专家(深圳/北京/上海/杭州)

📋 Job Overview

Tencent is seeking a Taiji GPU Intelligent Scheduling Expert to lead the strategic planning and architecture design of global resource scheduling systems for large-scale GPU clusters. The role focuses on optimizing resource utilization, resolving performance bottlenecks in distributed training, and developing high-availability scheduling frameworks using cloud-native technologies. Responsibilities include exploring cutting-edge technologies like hybrid cloud and heterogeneous computing to drive innovation in compute resource scheduling platforms.

📍 Location: Shenzhen, China

🏢 Business Unit: TEG

📄 Full Description

1.主导万卡级 GPU 集群全局资源调度体系的战略规划与架构设计,通过构建动态资源画像、智能负载预测及精细化调度策略,实现资源利用率显著提升,保障离线训练与在线推理任务的高效稳定运行;
2.深入解析 RDMA 协议栈、分布式存储 IO 路径与计算资源的协同机制,定位并攻克大规模训练任务中的网络瓶颈、存储延迟等性能卡点,优化数据流转全链路吞吐量,支撑超大规模模型高效训练;
3.基于 Kubernetes、Docker 等云原生技术栈,主导高可用调度框架的架构设计与核心模块开发,深度适配分布式训练框架(如 Megatron-LM、DeepSpeed)需求,实现任务智能编排、自动化容灾与混合部署能力;深入 K8s 调度器源码级优化、CSI 插件定制开发及 CRD 扩展设计,推动大规模训推一体化技术落地;
4.牵头探索混合云资源池化、虚拟化技术(如 KVM / 容器虚拟化)、ARM 异构计算等前沿方向的技术验证与方案落地,制定技术演进路线图,持续推动计算资源调度平台的能力升级与技术创新;
5.沉淀大规模集群调度最佳实践与技术方法论,主导跨团队技术协作(如框架、硬件、网络团队),解决调度领域复杂技术难题,支撑业务高速增长。

🎯 Key Responsibilities

  • 主导万卡级 GPU 集群全局资源调度体系的战略规划与架构设计,通过构建动态资源画像、智能负载预测及精细化调度策略,实现资源利用率显著提升,保障离线训练与在线推理任务的高效稳定运行
  • 深入解析 RDMA 协议栈、分布式存储 IO 路径与计算资源的协同机制,定位并攻克大规模训练任务中的网络瓶颈、存储延迟等性能卡点,优化数据流转全链路吞吐量,支撑超大规模模型高效训练
  • 基于 Kubernetes、Docker 等云原生技术栈,主导高可用调度框架的架构设计与核心模块开发,深度适配分布式训练框架(如 Megatron-LM、DeepSpeed)需求,实现任务智能编排、自动化容灾与混合部署能力;深入 K8s 调度器源码级优化、CSI 插件定制开发及 CRD 扩展设计,推动大规模训推一体化技术落地
  • 牵头探索混合云资源池化、虚拟化技术(如 KVM / 容器虚拟化)、ARM 异构计算等前沿方向的技术验证与方案落地,制定技术演进路线图,持续推动计算资源调度平台的能力升级与技术创新
  • 沉淀大规模集群调度最佳实践与技术方法论,主导跨团队技术协作(如框架、硬件、网络团队),解决调度领域复杂技术难题,支撑业务高速增长

🛠️ Required Skills

  • RDMA 协议栈
  • 分布式存储 IO 路径
  • Kubernetes
  • Docker
  • 分布式训练框架(如 Megatron-LM、DeepSpeed)
  • K8s 调度器源码级优化
  • CSI 插件定制开发
  • CRD 扩展设计
  • 混合云资源池化
  • 虚拟化技术(如 KVM / 容器虚拟化)
  • ARM 异构计算

Locations

  • Shenzhen, China

Salary

Estimated Salary Rangemedium confidence

800,000 - 1,500,000 CNY / yearly

Source: ai estimated

* This is an estimated range based on market data and may vary based on experience and qualifications.

Skills Required

  • RDMA 协议栈intermediate
  • 分布式存储 IO 路径intermediate
  • Kubernetesintermediate
  • Dockerintermediate
  • 分布式训练框架(如 Megatron-LM、DeepSpeed)intermediate
  • K8s 调度器源码级优化intermediate
  • CSI 插件定制开发intermediate
  • CRD 扩展设计intermediate
  • 混合云资源池化intermediate
  • 虚拟化技术(如 KVM / 容器虚拟化)intermediate
  • ARM 异构计算intermediate

Responsibilities

  • 主导万卡级 GPU 集群全局资源调度体系的战略规划与架构设计,通过构建动态资源画像、智能负载预测及精细化调度策略,实现资源利用率显著提升,保障离线训练与在线推理任务的高效稳定运行
  • 深入解析 RDMA 协议栈、分布式存储 IO 路径与计算资源的协同机制,定位并攻克大规模训练任务中的网络瓶颈、存储延迟等性能卡点,优化数据流转全链路吞吐量,支撑超大规模模型高效训练
  • 基于 Kubernetes、Docker 等云原生技术栈,主导高可用调度框架的架构设计与核心模块开发,深度适配分布式训练框架(如 Megatron-LM、DeepSpeed)需求,实现任务智能编排、自动化容灾与混合部署能力;深入 K8s 调度器源码级优化、CSI 插件定制开发及 CRD 扩展设计,推动大规模训推一体化技术落地
  • 牵头探索混合云资源池化、虚拟化技术(如 KVM / 容器虚拟化)、ARM 异构计算等前沿方向的技术验证与方案落地,制定技术演进路线图,持续推动计算资源调度平台的能力升级与技术创新
  • 沉淀大规模集群调度最佳实践与技术方法论,主导跨团队技术协作(如框架、硬件、网络团队),解决调度领域复杂技术难题,支撑业务高速增长

Target Your Resume for "太极GPU智能调度专家(深圳/北京/上海/杭州)" , Tencent

Get personalized recommendations to optimize your resume specifically for 太极GPU智能调度专家(深圳/北京/上海/杭州). Takes only 15 seconds!

AI-powered keyword optimization
Skills matching & gap analysis
Experience alignment suggestions

Check Your ATS Score for "太极GPU智能调度专家(深圳/北京/上海/杭州)" , Tencent

Find out how well your resume matches this job's requirements. Get comprehensive analysis including ATS compatibility, keyword matching, skill gaps, and personalized recommendations.

ATS compatibility check
Keyword optimization analysis
Skill matching & gap identification
Format & readability score

Tags & Categories

TencentShenzhenChinaTEGTEG

Answer 10 quick questions to check your fit for 太极GPU智能调度专家(深圳/北京/上海/杭州) @ Tencent.

Quiz Challenge
10 Questions
~2 Minutes
Instant Score

Related Books and Jobs

No related jobs found at the moment.