算力设备大数据平台
更多资源: 设备规划
更多资源: 设备部署
更多资源: 算力设备资源总览--监控中心
GPU服务器 AI训练节点 边缘计算节点 存储阵列
服务器 1280 节点 864 边缘柜 426 阵列 192
GPU卡 10240 交换机 318 推理盒 960 磁盘柜 288
训练主机 736 存储节点 224 算力交换机 186 冷却单元 92
推理服务器 512 调度控制器 148 备份阵列 116 UPS电源 84
液冷机柜 推理一体机 高性能网络 智能运维终端
机柜 144 设备 320 交换机 210 巡检机器人 76 环境传感器 512
冷板 960 加速卡 640 光模块 1260 手持终端 128 可视面板 64
液冷泵组 88 推理盒卡 420 IB交换机 72 巡检终端 96 门磁传感器 268
机柜母排 156 边缘一体机 208 光纤链路 860 巡检PAD 54 温湿度探头 344
更多资源: 设备维护
更多资源: 设备效能
设备质量总览
GPU计算成功率 GPU利用率 显存利用率 任务中断率 异常节点占比
99.75% 55.92% 21.1% 0.24% 0.09%
训练集群质量
任务调度成功率 资源挂载成功率 节点在线率 切换作业成功率 作业失败率
99.83 99.94% 99.77% 99.64% 0.04%
边缘节点性能
边缘节点在线率 边缘任务成功率 节点离线率 本地缓存命中率 平均负载占用
98.69% 98.84% 0.01% 91.14% 50.51%
网络交换性能
交换链路可用率 业务转发成功率 高负载交换机占比 交换设备退服率 链路拥塞率
98.01% 98.84% 17.5% 0.01% 0.04%
存储系统性能
存储节点在线率 读写成功率 数据同步成功率 节点离线率 平均磁盘温度
99.77% 99.64% 100% 0.04% 37.8℃
视频巡检指标
平均巡检响应时长(ms) 平均视频回传速率(MBps) 平均识别时延(ms) 平均异常检出次数(次/小时) 平均机柜温度(℃)
2482.7 3750.7 61.05 0.99 28.15
语音运维指标
平均派单时长(s) 平均处理时延 任务迁移率 平均工单质量 平均风扇转速(rpm)
46.88 1.13 0.07% 98.6 4702
推理集群质量
节点在线率 交换路径成功率 任务下发成功率 下行带宽利用率 上行带宽利用率
99.92% 99.69% 99.93% 62.03% 10.06%
下行带宽利用率 高干扰节点比例 节点离线率 高负载节点占比 高误码节点比例
11.48% 0.37% 0.04% 0.35% 0.22%