算力运维专家

Referencia: GC877561

Publicada: 12/06/2026

shenzhen South China Mainland China

Indefinido

【岗位概述】
本岗位为公司智算算力体系核心专家岗位，主导GPU/CPU异构算力集群、AI训练推理平台、分布式存储与高速网络的全生命周期运维体系建设。聚焦大规模算力集群稳定性保障、资源调度优化、自动化运维落地、算力成本管控及故障体系建设，支撑大模型训练、AI算法研发、智能业务落地等高算力需求场景，持续提升算力资源利用率、平台可用性与运维智能化水平，搭建行业领先的算力运维架构与标准化体系。

【工作职责】
1. 算力集群架构运维与稳定性保障：
负责大规模异构算力集群（GPU服务器、CPU算力节点、NPU算力设备）日常运维、巡检、扩容与迭代管理，保障智算平台整体SLA≥99.99%。统筹服务器、机柜、电力、制冷、高速网络等底层基础设施运维，快速定位并根治硬件故障、节点宕机、算力掉线、集群卡顿等疑难问题，建立故障复盘与闭环优化机制。
2. 算力调度系统优化与资源提效：
负责Slurm、Kubernetes、Kubeflow等核心算力调度平台的部署、运维、调优与版本迭代，优化算力作业调度策略、队列管理机制、资源抢占规则。针对算力资源闲置、排队拥堵、资源争用、调度延迟等问题做专项优化，持续提升GPU/CPU算力资源利用率、作业通过率与集群整体吞吐量，支撑大规模AI分布式训练业务稳定运行。
3. 高速算力网络与存储体系运维：
主导InfiniBand、RoCE高速网络架构运维与调优，解决分布式训练场景下的网络拥塞、数据延迟、丢包等核心问题。负责分布式存储、算力缓存集群的运维优化，统筹算力数据读写、扩容、容灾备份工作，保障海量训练数据、业务数据的安全稳定存取。
4. 自动化、智能化运维体系搭建：
基于Python、Shell等脚本工具，研发适配算力场景的自动化运维工具，实现集群巡检、故障告警、节点重启、资源统计、日志分析等工作自动化落地。搭建Grafana、Zabbix、ELK全链路监控体系，构建算力资源可视化监控大盘，实现故障秒级发现、分钟级定位、快速自愈。
5. 算力成本管控与标准化建设：
建立算力资源全生命周期管理标准、运维操作规程、应急预案、SLA考核体系。定期输出算力资源使用报表、性能瓶颈分析报告、成本优化方案，通过资源动态分配、闲时资源整合、冗余节点清理等方式持续降低算力运营成本。
6. 技术迭代与团队赋能：
跟进行业智算运维、算力调度、AI基础设施新技术、新架构，结合公司业务场景落地技术创新。协同算法、研发、产品团队，配合大模型训练、算力业务上线的全流程支撑，输出算力环境适配、性能调优方案，同时沉淀运维经验、输出技术规范，赋能团队运维能力提升。

【任职资格】
（一）硬性要求
1. 学历与经验：本科及以上学历，计算机、网络工程、云计算、人工智能相关专业毕业，5年以上大规模GPU智算集群运维经验，3年以上算力架构优化与团队技术统筹经验，有大模型算力平台、AI智算中心运维专家经验者优先。
2. 核心技术能力：
• 精通Linux系统运维、内核调优，熟练掌握Shell、Python自动化运维开发；
• 精通K8S集群、Slurm算力调度系统架构原理，具备大规模异构算力集群调优、故障根治实战能力；
• 熟悉InfiniBand/RoCE高速网络、分布式存储架构，精通算力网络、存储疑难问题排查；
• 熟练搭建监控告警、日志分析、自动化运维体系，具备独立设计算力运维工具链的能力。
3. 项目经验：主导过200P以上大规模GPU算力集群运维优化、算力调度升级、自动化。
【岗位概述】
本岗位为公司智算算力体系核心专家岗位，主导GPU/CPU异构算力集群、AI训练推理平台、分布式存储与高速网络的全生命周期运维体系建设。聚焦大规模算力集群稳定性保障、资源调度优化、自动化运维落地、算力成本管控及故障体系建设，支撑大模型训练、AI算法研发、智能业务落地等高算力需求场景，持续提升算力资源利用率、平台可用性与运维智能化水平，搭建行业领先的算力运维架构与标准化体系。

Tus resultados de búsqueda

Recientemente viste

AI策略运营

shenzhen, South China, Mainland China