边缘部署

边缘部署分支：边缘部署概述、ONNX/TensorRT、移动端部署、WebAssembly/WebGPU、边缘优化、监控维护

知识点(6 个)

边缘部署指将AI模型部署到边缘设备（如移动设备、IoT设备、边缘服务器），实现低延迟、隐私保护和离线运行的推理能力。边缘计算架构：云边端协同；边缘设备类型：手机、IoT、边缘服务器；部署挑战：资源约束、网络限制；优势分析：延迟、隐私、离线；典型应用场景：智能终端、自动驾驶。

点击查看详细资源列表

ONNX是开放的模型格式标准，TensorRT是NVIDIA的高性能推理引擎，两者配合实现跨平台的高效模型部署。ONNX格式：模型导出与转换；ONNX Runtime：跨平台推理；TensorRT优化：层融合、精度校准；性能对比：速度与兼容性；部署流程：训练到推理pipeline。

点击查看详细资源列表

移动端部署关注在手机、平板等移动设备上运行AI模型，涉及模型压缩、NPU/GPU加速、省电优化等技术。移动端框架：TFLite、Core ML、MNN；硬件加速：NPU、GPU、DSP；模型优化：量化、剪枝、蒸馏；性能优化：内存、功耗、延迟；应用开发：Android、iOS集成。

点击查看详细资源列表

WebAssembly和WebGPU使AI模型能在浏览器中高效运行，实现跨平台、零安装的AI应用部署。WebAssembly原理：接近原生性能；WebGPU规范：GPU计算API；框架支持：TensorFlow.js、ONNX.js；性能优化：SIMD、多线程；应用场景：在线推理、边缘计算。

点击查看详细资源列表

边缘优化包括模型压缩、算子融合、精度调整、内存优化等技术，针对边缘设备的资源约束进行专门优化。模型压缩：量化、剪枝、蒸馏；算子优化：融合、重排；内存优化：静态分配、复用；功耗优化：计算调度；性能评估：延迟、吞吐、功耗。

点击查看详细资源列表

监控维护涵盖模型部署后的性能监控、日志管理、故障诊断、模型更新和A/B测试等运维工作。监控指标：延迟、吞吐、错误率；日志管理：采集、存储、分析；故障诊断：告警、根因分析；模型更新：灰度发布、回滚；A/B测试：流量分配、效果评估。

点击查看详细资源列表