1. 知识蒸馏(Knowledge Distillation)
用小型“学生”模型去拟合大型“教师”模型的输出,保持精度的同时显著减少参数量与计算量。
2. 剪枝(Pruning)
通过算法识别并移除对结果影响极小的神经元或权重,直接缩减网络规模,降低存储和计算开销。
3. 量化(Quantization)
将 32 位浮点权重压缩到 8 位甚至更低,大幅减少内存占用并加速推理,适合移动端与边缘设备。
4. 低秩分解(Low-Rank Factorization)
把大型权重矩阵拆分为若干低秩矩阵的乘积,显著降低参数数量,同时保持模型表达能力。
5. 神经架构搜索(NAS)优化
使用 AI 自动搜索更精简、更高效的模型结构,摆脱人工试错,实现“用 AI 设计 AI”。