Lite v2.8 Release Notes

Release Notes

Paddle-Lite v2.8 全面支持 Paddle 2.0 模型推理，并对框架进行了内存开销优化和稳定性改进。同时，ARM CPU, OpenCL 性能相对前一版本有较大提升，增加 XPU / NPU 图优化策略，并丰富了算子类型。

C++ API 接口：新增 set_x86_math_num_threads ，可以设置 x86 上 MKL 底层计算的线程数
Python API 接口：新增 tensor.numpy 和tensor.from_numpy
- tensor.numpy() : 将Tensor 中的数据转化为 numpy.array
- tensor.from_numpy()：从 numpy.array 数据对象创建 Tensor
NN硬件相关 API 接口：新增 set_subgraph_model_cache_buffers 接口
- 支持从内存设置子图缓存产物，使用方法可参考Rockchip NPU Demo

对应支持 PaddlePaddle v2.0 ，官方验证了如下模型

更新X86 MKL静态库支持以及Windows编译相关文档 PaddleLite使用X86预测部署
新增动态离线量化完整示例
更新XPU文档，提供xpu_toolchain的下载
更新Rockchip NPU文档，demo增加Resnet-50模型的支持，提供一键全量化PaddleSlim-quant-demo 用于生成适用于Rockchip NPU的全量化MobileNetV1和Resnet-50模型

ARM CPU支持LSTM/GRU量化的模型
ARM CPU支持动态图量化训练功能产出的量化模型
ARM CPU支持RNN OP算子
ARM CPU 对卷积类算子做了性能优化，与上个版本相比FP32 模型性能有5%-10%提升：
- 优化A53 处理器上卷积-GEMM 矩阵乘kernel的实现；
- 优化其他卷积kernel的实现，如Im2col_GEMM 、conv_3x3s2_direct 等卷积算子；
ARM CPU支持高版本NDK编译
ARMLinux支持使用环境变量CC和CXX设置C编译器和C++编译器
ARM CPU INT8性能提升：
- 基于NDK17在armv7下支持dot指令，在ARMv8.2架构下，GEMM性能有大幅提升（实测A76有150%-270%提升）
- 重构GEMV INT8实现，在各架构下均有较大提升，平均提升100+%-200+%
ARM CPU 使用Intrinsic优化box_coder，增加对paddle fastrcnn和maskrcnn模型的支持
ARM CPU相对于上一个版本，绝大部分模型性能均有较大提升

OpenCL 的多平台支持：新增支持 Windows/macOS 平台，可利用 PC 端的集成显卡或独立显卡提高预测速度
OpenCL 的多精度运行执行：新增支持 fp32 精度，主要用于对精度要求较高的应用场景
OpenCL op 支持范围：新增 reduce_mean, hard_swish, prelu, batch_norm，clip，yolo_box, shape, slice
OpenCL op 通用性增强算子：transpose，conv2d；
OpenCL 在线auto-tune新增2种online-auto-tune策略CL_TUNE_RAPID、CL_TUNE_NORMAL，更快调优模型性能；
OpenCL 增加对Buffer和Imaeg2D的内存边界检查，在用户输入尺寸较大导致运行失败情况下会有友好的提示；
OpenCL 增加scale-activation、conv-scale、conv-hard sigmoid、instance_norm-relu 融合，可以对包含该结构的模型有性能提升如Yolov3-Mobilenetv3；
OpenCL depthwise_conv2d3x3 强化：支持 stride 不一致时的计算

v2.8 版本与 v2.7 版本相比，绝大部分模型都有性能提升

Rockchip NPU新增reshape, flatten, scale, pad2d, transpose 等 op bridge，修复act, concat, batch norm 等 op bridge 中的问题
针对Rockchip NPU全量化模型，新增pass实现多输入op（如concat）的输入、输出scale的一致性约束
Rockchip NPU新增支持Resnet-50和度目业务模型（CV检测和识别类）
Rockchip NPU支持离线模型缓存，支持从内存读入缓存后的模型，满足模型加、解密的业务要求
已支持的MobileNetV1和ResNet-50全量化模型分别在TB-RK1808S0 AI计算棒、RK1808 EVB开发板和RV1109开发板的CPU和NPU性能（耗时）对比如下