算力运维专家
Publicada: 12/06/2026
shenzhen South China Mainland China
Indefinido
IT
本岗位为公司智算算力体系核心专家岗位,主导GPU/CPU异构算力集群、AI训练推理平台、分布式存储与高速网络的全生命周期运维体系建设。聚焦大规模算力集群稳定性保障、资源调度优化、自动化运维落地、算力成本管控及故障体系建设,支撑大模型训练、AI算法研发、智能业务落地等高算力需求场景,持续提升算力资源利用率、平台可用性与运维智能化水平,搭建行业领先的算力运维架构与标准化体系。
【工作职责】
1. 算力集群架构运维与稳定性保障:
负责大规模异构算力集群(GPU服务器、CPU算力节点、NPU算力设备)日常运维、巡检、扩容与迭代管理,保障智算平台整体SLA≥99.99%。统筹服务器、机柜、电力、制冷、高速网络等底层基础设施运维,快速定位并根治硬件故障、节点宕机、算力掉线、集群卡顿等疑难问题,建立故障复盘与闭环优化机制。
2. 算力调度系统优化与资源提效:
负责Slurm、Kubernetes、Kubeflow等核心算力调度平台的部署、运维、调优与版本迭代,优化算力作业调度策略、队列管理机制、资源抢占规则。针对算力资源闲置、排队拥堵、资源争用、调度延迟等问题做专项优化,持续提升GPU/CPU算力资源利用率、作业通过率与集群整体吞吐量,支撑大规模AI分布式训练业务稳定运行。
3. 高速算力网络与存储体系运维:
主导InfiniBand、RoCE高速网络架构运维与调优,解决分布式训练场景下的网络拥塞、数据延迟、丢包等核心问题。负责分布式存储、算力缓存集群的运维优化,统筹算力数据读写、扩容、容灾备份工作,保障海量训练数据、业务数据的安全稳定存取。
4. 自动化、智能化运维体系搭建:
基于Python、Shell等脚本工具,研发适配算力场景的自动化运维工具,实现集群巡检、故障告警、节点重启、资源统计、日志分析等工作自动化落地。搭建Grafana、Zabbix、ELK全链路监控体系,构建算力资源可视化监控大盘,实现故障秒级发现、分钟级定位、快速自愈。
5. 算力成本管控与标准化建设:
建立算力资源全生命周期管理标准、运维操作规程、应急预案、SLA考核体系。定期输出算力资源使用报表、性能瓶颈分析报告、成本优化方案,通过资源动态分配、闲时资源整合、冗余节点清理等方式持续降低算力运营成本。
6. 技术迭代与团队赋能:
跟进行业智算运维、算力调度、AI基础设施新技术、新架构,结合公司业务场景落地技术创新。协同算法、研发、产品团队,配合大模型训练、算力业务上线的全流程支撑,输出算力环境适配、性能调优方案,同时沉淀运维经验、输出技术规范,赋能团队运维能力提升。
【任职资格】
(一)硬性要求
1. 学历与经验:本科及以上学历,计算机、网络工程、云计算、人工智能相关专业毕业,5年以上大规模GPU智算集群运维经验,3年以上算力架构优化与团队技术统筹经验,有大模型算力平台、AI智算中心运维专家经验者优先。
2. 核心技术能力:
• 精通Linux系统运维、内核调优,熟练掌握Shell、Python自动化运维开发;
• 精通K8S集群、Slurm算力调度系统架构原理,具备大规模异构算力集群调优、故障根治实战能力;
• 熟悉InfiniBand/RoCE高速网络、分布式存储架构,精通算力网络、存储疑难问题排查;
• 熟练搭建监控告警、日志分析、自动化运维体系,具备独立设计算力运维工具链的能力。
3. 项目经验:主导过200P以上大规模GPU算力集群运维优化、算力调度升级、自动化。
【岗位概述】
本岗位为公司智算算力体系核心专家岗位,主导GPU/CPU异构算力集群、AI训练推理平台、分布式存储与高速网络的全生命周期运维体系建设。聚焦大规模算力集群稳定性保障、资源调度优化、自动化运维落地、算力成本管控及故障体系建设,支撑大模型训练、AI算法研发、智能业务落地等高算力需求场景,持续提升算力资源利用率、平台可用性与运维智能化水平,搭建行业领先的算力运维架构与标准化体系。