新增功能
- 简化动态图C++报错栈,栈信息缩减50%上且无有效信息丢失。
- 在动态图执行报错时添加Op提示,提升调试体验。
- 量化训练模块支持用户自定义量化训练策略,提升量化功能的灵活性。
性能优化
- 优化DataLoader set_batch_generator接口在输入为ndarray时的性能,减少数据拷贝,351MB耗时从400ms降至80ms。
Bug修复
- 修复使用CPU DNNL预测OCR模型时,多次运行的预测结果不同的问题。
- 修复预测GRU模型时使用FC+GRU fuse报错的问题。
- 修复多处CUDA Kernel在Tensor数据较大时循环索引越界导致非法内存访问的问题。
- 修复错误配置DataLoader.from_generator时产生的非法内存访问问题,并增加报错提示。
- 修复paddle安装时找不到默认路径cudnn库的问题,并完善报错提示。
- 修复使用Paddle-TensorRT部署ERNIE模型时序列化和反序列化出core的问题。
- 修复在Jetson平台上编译报错的问题。
- cpuid.h not found/no member named ‘dynamicRangeIsSet’/‘kHARD_SIGMOID’ is not a member of ‘nvinfer1::ActivationType’
- 修复concat组网时维度判断问题。
- 修复fluid.dygraph.grad在多个分支时依赖关系分析存在的bug。