导航菜单
切换主题

边缘部署

边缘部署分支:边缘部署概述、ONNX/TensorRT、移动端部署、WebAssembly/WebGPU、边缘优化、监控维护

知识点(6 个)

边缘部署概述

10 资源

边缘部署指将AI模型部署到边缘设备(如移动设备、IoT设备、边缘服务器),实现低延迟、隐私保护和离线运行的推理能力。边缘计算架构:云边端协同;边缘设备类型:手机、IoT、边缘服务器;部署挑战:资源约束、网络限制;优势分析:延迟、隐私、离线;典型应用场景:智能终端、自动驾驶。

点击查看详细资源列表

ONNX/TensorRT

11 资源

ONNX是开放的模型格式标准,TensorRT是NVIDIA的高性能推理引擎,两者配合实现跨平台的高效模型部署。ONNX格式:模型导出与转换;ONNX Runtime:跨平台推理;TensorRT优化:层融合、精度校准;性能对比:速度与兼容性;部署流程:训练到推理pipeline。

点击查看详细资源列表

移动端部署

9 资源

移动端部署关注在手机、平板等移动设备上运行AI模型,涉及模型压缩、NPU/GPU加速、省电优化等技术。移动端框架:TFLite、Core ML、MNN;硬件加速:NPU、GPU、DSP;模型优化:量化、剪枝、蒸馏;性能优化:内存、功耗、延迟;应用开发:Android、iOS集成。

点击查看详细资源列表

WebAssembly/WebGPU

10 资源

WebAssembly和WebGPU使AI模型能在浏览器中高效运行,实现跨平台、零安装的AI应用部署。WebAssembly原理:接近原生性能;WebGPU规范:GPU计算API;框架支持:TensorFlow.js、ONNX.js;性能优化:SIMD、多线程;应用场景:在线推理、边缘计算。

点击查看详细资源列表

边缘优化

11 资源

边缘优化包括模型压缩、算子融合、精度调整、内存优化等技术,针对边缘设备的资源约束进行专门优化。模型压缩:量化、剪枝、蒸馏;算子优化:融合、重排;内存优化:静态分配、复用;功耗优化:计算调度;性能评估:延迟、吞吐、功耗。

点击查看详细资源列表

监控维护

14 资源

监控维护涵盖模型部署后的性能监控、日志管理、故障诊断、模型更新和A/B测试等运维工作。监控指标:延迟、吞吐、错误率;日志管理:采集、存储、分析;故障诊断:告警、根因分析;模型更新:灰度发布、回滚;A/B测试:流量分配、效果评估。

点击查看详细资源列表