|
|
| |
| |
工作地址 |
|
|
|
|
(深圳市福田区深南大道耀华创建大厦1座12层1209号房)
用小程序查
用百度查
|
| |
职位描述 用小程序查看更多 |
|
"核心职责 1.战略规划与愿景: -制定并执行公司长期的AI算力战略,确保其与公司的AI研发路线图和业务目标高度一致。 -洞察全球AI算力技术趋势(如新型芯片、异构计算、液冷技术等),评估并引入前沿技术,保持公司算力基础设施的领先性。 -负责公司级算力预算的制定、成本效益分析和优化,实现极高的投资回报率(ROI)。 2.算力基础设施架构与建设: -主导设计、构建和运维超大规模、高性能、高可用的AI计算集群(数千张乃至上万张GPU)。 -精通异构计算架构,负责对GPU(NVIDIA/AMD/国产芯片)、高速互联(NVLink,NVSwitch,InfiniBand)、存储(并行文件系统)等关键硬件选型和技术决策。 -推动算力基础设施的自动化、平台化和服务化,为AI研发团队提供高效、弹性、自助的算力服务。 3.性能优化与系统调优: -建立全方位的集群性能监控、分析和预警体系,确保算力资源的极致利用率和稳定性。 -领导团队深度优化AI训练和推理任务的全栈性能,包括但不限于计算、通信、I/O和调度瓶颈。 -解决大规模分布式训练(如万亿参数模型)中的各类稳定性、效率和扩展性挑战。 4.团队领导与 |
|
| |
|
|
| |
|