监控维护
监控维护涵盖模型部署后的性能监控、日志管理、故障诊断、模型更新和A/B测试等运维工作。监控指标:延迟、吞吐、错误率;日志管理:采集、存储、分析;故障诊断:告警、根因分析;模型更新:灰度发布、回滚;A/B测试:流量分配、效果评估。
学习资源(14 个)
📎
Prometheus Documentation
Prometheus 文档
进阶
📎
Grafana Dashboards
Grafana 文档
进阶
📎
百度千帆 - 模型蒸馏技术
百度千帆蒸馏技术
入门
📎
阿里云ARMS - 应用监控
阿里云ARMS监控
进阶
📎
华为云APM - 应用性能管理
华为云APM
进阶
📎
腾讯云 - 云监控服务
腾讯云监控
入门
📎
CSDN - Prometheus监控部署
Prometheus教程
进阶
📎
SegmentFault - 模型运维最佳实践
运维最佳实践
进阶
📎
掘金 - Grafana可视化监控
Grafana教程
进阶
📎
飞桨Paddle - 模型服务监控
飞桨监控
进阶
📎
MLflow Model Monitoring
MLflow模型监控
进阶
📎
Seldon Core Monitoring
Seldon监控
进阶
📎
Arize AI - Model Monitoring
Arize模型监控
进阶
📎
WhyLabs - AI Observability
WhyLabs AI可观测性
进阶