|
|
| |
| |
职位描述 用小程序查看更多 |
|
1.硬件设备运维保障:负责数据中心、实验室或产线中服务器、GPU工作站、网络设备、存储设备及机器人等专用硬件的日常监控、部署、维护、故障排查与维修协调。 2.自动化运维开发:使用Python开发自动化脚本和工具,实现硬件设备的批量部署、配置管理、固件升级、健康检查及故障自愈。 3.监控系统建设:搭建和完善硬件监控系统(如Zabbix,Prometheus,Grafana),通过自定义脚本采集硬件性能指标(如温度、功耗、性能状态),并设置告警。 4.运维流程优化:发现运维痛点,通过技术手段优化硬件运维的SOP(标准作业程序),提升运维效率和质量。 5.文档与协作:编写运维文档、故障报告,并与研发团队紧密协作,提供硬件层面的支持与洞察。 |
|
| |
|
|
| |
|