github Tencent/ncnn 20260526
android harmonyos ios macos linux windows webassembly watchos tvos visionos 预编译库 20260526 e54f7b1

13 hours ago

编译版本,默认配置,android-ndk-r29,ohos-sdk-5.0.3,xcode 16.4,ubuntu-22.04,ubuntu-24.04,vs2015,vs2017,vs2019,vs2022,emscripten-3.1.28

file content arch
ncnn-full-source.zip 包含全部 submodule 代码的完整源码
ncnn-android.zip android 静态库/动态库 armeabi-v7a + arm64-v8a + x86 + x86_64 + riscv64
ncnn-android-vulkan.zip android 静态库/动态库,支持 GPU armeabi-v7a + arm64-v8a + x86 + x86_64 + riscv64
ncnn-harmonyos.zip harmonyos 静态库/动态库 armeabi-v7a + arm64-v8a + x86_64
ncnn-harmonyos-vulkan.zip harmonyos 静态库/动态库,支持 GPU armeabi-v7a + arm64-v8a + x86_64
ncnn-apple.zip apple xcframework,ios + ios-simulator + macos + mac-catalyst + watchos + watchos-simulator + tvos + tvos-simulator + visionos + visionos-simulator arm64 + arm64e + x86_64
ncnn-apple-vulkan.zip apple xcframework,ios + ios-simulator + macos + mac-catalyst + watchos + watchos-simulator + tvos + tvos-simulator + visionos + visionos-simulator,支持 GPU arm64 + arm64e + x86_64
ncnn-ios.zip ios 静态库 arm64
ncnn-ios-vulkan.zip ios 静态库,支持 GPU arm64
ncnn-ios-simulator.zip ios simulator 静态库 x86_64 + arm64
ncnn-ios-simulator-vulkan.zip ios simulator 静态库,支持 GPU x86_64 + arm64
ncnn-macos.zip macos 静态库 x86_64 + arm64
ncnn-macos-vulkan.zip macos 静态库,支持 GPU x86_64 + arm64
ncnn-mac-catalyst.zip mac catalyst 静态库 x86_64 + arm64
ncnn-mac-catalyst-vulkan.zip mac catalyst 静态库,支持 GPU x86_64 + arm64
ncnn-watchos.zip watchos 静态库 armv7k + arm64_32
ncnn-watchos-simulator.zip watchos simulator 静态库 x86_64 + arm64
ncnn-tvos.zip tvos 静态库 x86_64 + arm64
ncnn-tvos-vulkan.zip tvos 静态库,支持 GPU x86_64 + arm64
ncnn-tvos-simulator.zip tvos simulator 静态库 x86_64 + arm64
ncnn-tvos-simulator-vulkan.zip tvos simulator 静态库,支持 GPU x86_64 + arm64
ncnn-visionos.zip visionos 静态库 arm64
ncnn-visionos-vulkan.zip visionos 静态库,支持 GPU arm64
ncnn-visionos-simulator.zip visionos simulator 静态库 x86_64 + arm64
ncnn-visionos-simulator-vulkan.zip visionos simulator 静态库,支持 GPU x86_64 + arm64
ncnn-ubuntu.zip ubuntu linux 静态库/动态库,支持 GPU,模型转换工具 x86_64
ncnn-windows.zip windows 静态库/动态库,支持 GPU,模型转换工具 x86 + x64 + arm + arm64
ncnn-webassembly.zip webassembly 静态库 wasm32 + simd + threads + simd-threads

重点概览

  • 新增 HarmonyOS 预编译包发布流程,release 产物覆盖 CPU/Vulkan、静态/动态库,以及 armeabi-v7aarm64-v8ax86_64 三种架构。(#6746
  • Vulkan 后端新增 SDPA/FlashAttention、RotaryEmbed、GroupNorm、Reduction、Unfold、Softplus、Shrink 等算子,并引入持久化 pipeline cache、mmap 模型加载、host memory 权重驻留和逐层权重上传,明显面向大模型与长启动耗时优化。(@futz12, @CLV-Iclucia, #6514, #6702, #6537, #6531, #6534
  • x86 后端大规模补齐 bf16 storage 路径,覆盖 GEMM、Convolution、InnerProduct、Deconvolution、Pooling、Interp、归一化、激活、逐元素、量化/反量化等层,并增加 AVX512BF16 dispatch 和多项 micro-kernel 优化。(#6598, #6624, #6626, #6680
  • ARM 后端新增 ARM SDPA 实现,并为 ARMv8.4 BF16 优化 GEMM、Convolution im2col-GEMM、InnerProduct、MultiHeadAttention;同时补齐 ERF、ELU、GELU、SELU 的 NEON/fp16 SIMD 实现。(@Abandon-ht, @futz12, #6698, #6714, #6715, #6716, #6717, #6605
  • RISC-V RVV、MIPS MSA、LoongArch LSX/LASX 后端继续扩展,重点补齐 packed convolution/deconvolution、GEMM、量化/反量化、常见 unary/binary op、bf16/int8 和 4D Mat 支持。(#6662, #6740, #6636, #6658, #6695
  • pnnx 支持 .npy 真实输入、输出 FLOPS/memory OPS 统计,兼容 PyTorch 2.10/2.11,修复非对称 padding + conv 融合、Conv2d padding tuple 归一化、Erf 表达式落层等转换问题。(@MollySophia, @Yeuvoir, @crafcat7, #6700, #5836, #6592, #6701, #6694
  • 新增 benchncnn_llm 和算子级 perf 基础设施,benchmark 覆盖 LLM prefill/decode 与更多 CPU/GPU 算子性能回归。(#6711, #6570, #6632

Vulkan / GPU

  • 新增 Vulkan SDPA 层和 FlashAttention 路径,基础实现包含 2x2 unroll 和 local memory 优化,后续补齐统一 cross-attention shader、cooperative matrix 与非 cooperative matrix 两套 FlashAttention 实现,支持 mask、KV cache concat 和 chunk 化输出调度。(#6514, #6521, #6528, #6538
  • GEMM/SDPA cooperative matrix 和 subgroup 路径继续优化,加入 bf16/fp16 cooperative matrix、4x4 unroll、向量化加载、bank conflict 规避与 packed GEMM;后续限制 bf16 cooperative matrix 用法,避免不匹配的数据布局。(@futz12, #6515, #6524, #6573, #6632
  • 新增 Vulkan RotaryEmbed、GroupNorm、Reduction、Unfold、Softplus、Shrink 算子,减少 Transformer、norm、shape 处理和常见激活在 GPU 图中的 CPU fallback。(@futz12, #6519, #6556, #6476, #6543, #6478, #6479
  • Convolution、Convolution 1x1s1d1、Convolution GEMM、Convolution1D、Deconvolution、Deconvolution GEMM 的多个 pack1/pack4/pack1to4/pack4to1 shader 合并为统一 packed elempack shader,通过 specialization 控制输入输出 packing,减少 shader 和 pipeline 组合数量。(#6561, #6562, #6565, #6566, #6564, #6572
  • Conv1D Vulkan 在 fp16 条件下为 1x1s1d1 和 GEMM 路径增加 cooperative matrix,并将权重重新打包为 tile layout,以提升大通道 Conv1D 吞吐。(@futz12, #6587
  • 新增持久化 pipeline cache,PipelineCache 可保存/加载单文件 cache,记录设备、驱动、pipelineCacheUUID、shader hash、SPIR-V 和 driver pipeline cache 校验;C API 同步增加接口,并新增测试和开发文档。(@futz12, @CLV-Iclucia, #6702
  • 模型加载新增只读 mmap 路径,Option::use_mapped_model_loading 可减少大模型加载时的一次文件读入拷贝,并校验消费字节数与文件大小一致,失败时回退普通文件读取。(#6537
  • 新增 Vulkan 权重 host memory 加载策略,Option::use_weights_in_host_memory 可在支持 VK_EXT_external_memory_host 或 host-visible device memory 时将权重驻留 host/shared VRAM;Windows 下改用 shared VRAM 以符合 WDDM 行为。(#6531, #6545, #6547
  • 模型权重上传改为逐层执行,load_model 在每层 load_model/create_pipeline 后立即上传,并在待上传数据过大时提交并 reset transfer command,降低大模型加载峰值 CPU 内存和 staging buffer 占用。(#6534
  • 针对 Resizable BAR 优化权重上传,离散 GPU 若 device-local heap 同时 host-visible,则优先分配可映射 device-local 权重内存,减少 staging copy。(#6536
  • VkMat / allocator 记录 memory_type_index,设备可判断 buffer 是否 device-local;GEMM 在常量 A/B 位于非 device-local 内存时先 clone 到 device-local,兼顾 host-memory 权重省内存与热点 GEMM 读带宽。(#6581
  • packed shape hint 下沉到 Net 加载阶段,依据 shape hint、packing layout 和 fp16/bf16 选项提前计算 packed bottom/top shape,提升 Vulkan layer 创建 pipeline 时的 shape 一致性。(#6553
  • Vulkan forward 长命令支持自动分段提交,按 pending dispatch 数和 GPU rough score 阈值提交 command buffer,减少大图或慢 GPU 上的驱动 timeout 风险。(#6541
  • 模型加载时会清理设备不支持的 Vulkan bf16 packed/storage 选项,避免后续生成非法 shader。(#6522
  • Vulkan 扩展启用逻辑补齐依赖关系,对 external memory、8/16bit storage、descriptor indexing、buffer device address、Android hardware buffer 等扩展按前置能力过滤,减少驱动能力误报导致的初始化问题。(#6705
  • Qualcomm/Adreno GPU 暂时禁用 KHR/NV cooperative matrix,规避当前硬件/驱动对 ncnn tile unroll 支持不足的问题。(#6719
  • 修复和兼容 SwiftShader memory type bits、MoltenVK half shader 类型、Reduction fp16 subgroup 扩展声明、llvmpipe atan2(0,0) 结果等 Vulkan 驱动差异。(@NKID00, #6539, #6602, #6615, #6729
  • DeepCopy、Normalize、InnerProduct、InstanceNorm、LayerNorm、RMSNorm、Scale、PReLU、ShuffleChannel、Padding 等 Vulkan 路径补充更多 4D Mat 处理,减少 4D 输入回退或 shape 错误。(#6737

x86 CPU 后端

  • 新增 AbsVal_x86,支持 fp16/bf16 storage,减少 16-bit storage 图中的 fp32 往返转换。(#6584
  • LayerNorm、RMSNorm、UnaryOp、BinaryOp 增加 x86 bf16 storage 和 AVX512BF16 dispatch,归一化和逐元素算子在 bf16 模型中更少 fallback。(#6585, #6586, #6588, #6591
  • Concat、Slice、Flatten、Reshape、Crop、Padding、Packing 支持 x86 fp16/bf16 storage,使 shape/data movement 层不再强制回到 fp32。(#6593
  • BatchNorm、GroupNorm、InstanceNorm、Clip、ReLU、Sigmoid、PReLU、Scale、Swish、Softmax、RotaryEmbed、Tanh、SELU、Mish、HardSwish、HardSigmoid、GELU、ERF、ELU、Eltwise、Dropout、Quantize、Dequantize、BNLL 等补齐 bf16 storage。(#6594, #6595, #6589, #6624
  • GEMM、Convolution、InnerProduct、Deconvolution、Convolution1D、Pooling、Interp 全面扩展 x86 bf16 storage,GEMM 增加 out_elemtype,MultiHeadAttention 和 SDPA 可复用 bf16 路径。(#6598, #6623, #6625, #6626, #6627, #6630, #6648, #6649
  • AVX512BF16 GEMM 和 Convolution bf16s micro-kernel 继续优化,包括针对 AMD Zen 5 将部分 vpalignr 改为 vpshufd 以避开与 vdpbf16ps 的端口冲突、增加 16x16 kernel 指令调度、N tile x16 和 convolution unroll 16。(#6609, #6673, #6680
  • 优化 x86 int8 GEMM、InnerProduct 和 Depthwise Convolution 的 SSE4.1 路径,提升 int8 packed/depthwise 推理性能。(@Edwardssss, #6600, #6687
  • 优化 x86 fp16s InnerProduct GEMM,降低 loop-carried stalls。(@Edwardssss, #6682
  • Interp、ERF/GELU、RotaryEmbed、PixelShuffle 增加或优化 SIMD 实现,覆盖 resize、激活、LLM rotary embedding 和 block transpose 场景。(@futz12, @crafcat7, #6597, #6604, #6427, #6690
  • DeformableConv2D 和 Deconvolution 改为 unified elempack packed 实现,减少 pack1/4/8/16 多套分支文件。(#6567, #6568
  • 修复 i386 上 x86 bf16 GEMM packing 顺序、x86 临时 buffer 对齐导致的 ASAN 报错,以及 SSE ShuffleChannel 最后通道处理越界读。(@junwha, #6708, #6703, #5735

ARM CPU 后端

  • 新增 ARM SDPA layer 实现,内部复用 GEMM + Softmax,覆盖 attention mask 和 KV cache 场景,使 ARM CPU 上 Transformer 注意力路径更完整。(@Abandon-ht, #6698
  • ARMv8.4 BF16 优化 GEMM、Convolution im2col-GEMM、InnerProduct、MultiHeadAttention,支持 BF16 指令的 CPU 上核心矩阵乘、卷积和注意力层可直接走 bf16 storage。(#6714, #6715, #6716, #6717
  • ERF、ELU、GELU、SELU 增加 ARM SIMD 实现,并补充 fp16 asimdhp 版本,常见激活函数在 NEON/fp16 storage 路径上更快。(@futz12, #6605
  • 优化 AArch64 exp_ps 和 fp16 exp_ps floor step,减少依赖 exp 的激活和 softmax 类计算开销。(@crafcat7, #6657, #6659
  • x86/ARM GEMM 增加 m == 1 优化,覆盖 batch=1、decode、单 token 推理等低延迟场景。(#6723
  • 修复 Windows ARM 构建问题,并重构 ARM bf16 逻辑以绕过 OHOS clang aarch64 crash。(#6699, #6725
  • ARM ShuffleChannel 最后通道处理修复越界读,与 x86 同步补充测试。(@junwha, #5735

RISC-V / MIPS / LoongArch 后端

  • RISC-V 新增 fp16 storage GEMM,Gemm_riscv 可根据 ZFH/ZVFH 能力启用 fp16 storage,常量 A/B 支持 16-bit 预打包,减少 fp32 中间存储和转换。(@Xinyu302, #5311
  • RISC-V 新增 DeformableConv2D RVV 实现,覆盖 pack1、packn、pack1ton、packnto1 路径,相比 scalar 实现提速约 12.94x 至 20.16x。(@chenglimin, #6540
  • RISC-V RVV 批量补齐 Softplus、Exp、Log、Power、Shrink、Threshold、Dropout fp16 等算子实现,新增 fp32 和 ZFH fp16 路径,并补充 Exp/Log/Threshold 测试。(@ihb2032, #6635, #6637, #6638, #6666, #6671, #6676, #6667
  • RISC-V RVV 1.0 新增 Quantize、Dequantize、Requantize 实现,支持 packn/int8 packn、per-tensor/per-channel scale、fp16 storage 输入或输出,Requantize 支持 ReLU/LeakyReLU 融合量化路径。(@Deepdive543443, #6636, #6658, #6695
  • RISC-V packed convolution/deconvolution 统一实现,删除多个 packn/pack1ton/packnto1 专用头文件,改为 convolution_packed*.hdeconvolution_packed*.h 统一调度。(#6731
  • RISC-V im2col GEMM 和 Winograd convolution 统一 elempack 优化,新增统一的 convolution_im2col_gemm*.hconvolution_3x3_winograd*.h,替换旧的 1x1/sgemm/winograd 分裂实现。(#6740
  • MIPS 新增 ELU、Erf、GELU、SELU 的 MSA 实现,避免这些激活层退回通用标量路径。(@futz12, #6607
  • MIPS 后端大规模优化,新增/重构 MSA 路径,覆盖 absval、batchnorm、binaryop、bnll、concat/slice/reshape/packing/padding、convolution/deconvolution packed、im2col GEMM、Winograd、bf16/int8 GEMM、pooling、norm、matmul、LSTM/MHA/SDPA、softmax、activation 等大量层。(#6662
  • LoongArch 后端大规模优化,扩展 LSX/LASX pack4/pack8 路径,新增 convolution/deconvolution packed、im2col GEMM、Winograd、bf16/int8 GEMM、gridsample、norm、matmul、LSTM/MHA、pooling、softmax、RotaryEmbed、SDPA 等实现。(#6662
  • RISC-V、MIPS、LoongArch 同步扩展 BinaryOp 的 fmodlogaddexpfloor_divideremainder 及反向版本,以及 UnaryOp 的 signexpm1log1p、双曲函数和反双曲函数。(@futz12, @crafcat7, #6549, #6675
  • RISC-V、MIPS、LoongArch 多个算子补齐 4D Mat 支持,涉及 Quantize、Dequantize、Requantize、InstanceNorm、LayerNorm、PReLU、RMSNorm、Scale、ShuffleChannel 等。(#6737
  • 整理 MIPS 和 LoongArch packing 代码风格,调整架构宏条件和标量 fallback 结构,降低 pack1/pack4/pack8 分支复杂度。(#6745
  • 修复 RISC-V fp16 编译警告,RISC-V CI 工具链和 QEMU 更新到更新版本,继续覆盖 RVV/ZFH/ZVFH。(@bluemiao3, #6525, #6742

通用算子与模型能力

  • BinaryOp 新增 fmod / rfmodlogaddexpfloor_divide / rfloor_divideremainder / rremainder,CPU 各后端和 Vulkan shader 同步扩展,并新增测试。(@futz12, #6549
  • UnaryOp 新增 signexpm1log1psinhcoshasinhacoshatanh,各主要 SIMD/RVV/MSA/LSX/LASX/Vulkan 路径同步补齐,pnnx 和 onnx2ncnn 转换同步支持。(@crafcat7, #6675
  • 更多算子支持 4D Mat,包括 AbsVal、BNLL、CumulativeSum、Dequantize、Dropout、ERF、EXP、LOG、GLU、HardSigmoid、HardSwish、InnerProduct、InstanceNorm、LayerNorm、MVN、Normalize、Power、PReLU、Quantize、Requantize、RMSNorm、Scale、ShuffleChannel、StatisticsPooling 等,并扩展对应测试和 operators 文档。(#6737
  • 测试框架加入 CPU fp16 storage 组合,并在 fp16 packed 只适用于 GPU 时跳过 CPU reference;Quantize/Threshold 测试避开 fp16/bf16 舍入边界,提高 16-bit storage 回归稳定性。(#6724
  • 删除少量虚继承用法,简化 layer 类继承关系。(#6590
  • 修复 MSVC _aligned_malloc 路径缺少 NCNN_MALLOC_OVERREAD padding 的问题,避免优化 kernel 合法 overread 越过分配边界。(@ihb2032, #6583

pnnx / 转换工具

  • pnnx 新增 .npy 输入支持,命令行可通过 input= / input2= 直接提供真实张量,覆盖 TorchScript 和 ONNX 转换路径,减少仅靠 inputshape 推导带来的动态 shape 或 dtype 偏差。(@lovedream-ms, @lancerstadium, @AtomAlpaca, #6700
  • pnnx 转换结束打印模型 inputshape、FLOPS 和 memory OPS,并将统计信息写入生成的 pnnx Python 文件头部,便于评估计算量和访存量。(@luxincn, @SZUwishion, #5836
  • pnnx 支持 TNN Flatten,扩展 BinaryOp/UnaryOp 新增数学算子的转换,并修复 erf 表达式正确落到 Erf 层。(@Missmiaom, @futz12, @crafcat7, #6513, #6549, #6675, #6677
  • 单参数 PReLU 自动转成 LeakyReLU,使该模式可继续与卷积融合并减少运行时层数。(@w43322, #6344
  • 修复 padding + convolution / depthwise convolution 融合时非对称 padding 参数丢失,以及 Conv2d 4 元 padding tuple 到 ncnn padding 语义的归一化问题。(@MollySophia, @Yeuvoir, #6661, #6694
  • pnnx CI 更新到 PyTorch 2.10/2.11 相关测试矩阵,并修复 GRU/LSTM ONNX reshape 匹配和 MultiheadAttention(bias=False) 转换兼容性。(#6592, #6701
  • pnnx 增加更多 4D Mat 转换和运行覆盖,包括 reflection_pad3dInstanceNorm3d、rank-4 normalize 等。(#6737
  • 多个转换工具和 datareader 路径将 sprintf 改为 snprintf,降低 Caffe/MXNet/MLIR/ONNX/pnnx/quantize 工具生成字符串时的缓冲区风险。(@proydakov, #6554
  • pnnx Python 包中裸 except 改为 except Exception,减少误吞系统退出类异常。(@haosenwang1018, #6555

量化与模型写出

  • ncnn2table 接管 Embed、MultiHeadAttention、RNN、LSTM、GRU 的静态权重量化 scale 生成,这些层可在无校准数据集时生成 table;ncnn2int8 改为要求并消费 table,流程更明确。(@Roundaboutt, #6688
  • ncnn2int8 整理 RNN、LSTM、GRU、Embed、MultiHeadAttention、SDPA 的量化处理入口,非 CNN 层的 int8 模型生成路径更完整。(@Roundaboutt, #6688
  • ModelWriter 修复 Padding 空 per_channel_pad_data 写出崩溃。(#6533
  • ModelWriter 修复可选权重序列化,bias、affine norm 权重、MemoryData、Scale/Requantize bias 等仅在实际存在时写入,避免 .bin 权重错位或加载异常。(@lx-99-lyt, #6726
  • ModelWriter 增加 packed shape hint 和 4D shape hint,shape 记录扩展到 d 维,Vulkan/packed layout 路径可获得更完整 shape 信息。(#6553, #6737

Benchmark / Perf

  • 新增 benchncnn_llm,内置 Hunyuan 0.5B、MiniCPM4 0.5B、Qwen2.5 0.5B、Qwen3 0.6B、Llama3.2 1B、TinyLlama 1.1B、Youtu LLM 2B 的 decoder/proj_out param,可直接 benchmark LLM prefill/decode 并输出 TPS。(#6711
  • LLM benchmark 默认序列长度从 1024 调整为 256,使移动端和嵌入式设备更容易完成默认测试。(#6738
  • benchmark 模型 param 文件移动到 benchmark/models/,LLM param 放到 benchmark/models/llm/,目录更清晰,CMake 生成内置 param 的路径同步更新。(#6710
  • Vision Transformer benchmark 中线性层从 InnerProduct 改为 Gemm,更贴近 transformer/GEMM 优化路径,旧新 ViT 数据不宜直接横向比较。(#6709
  • 新增算子级 perf 基础设施,覆盖 BatchNorm、BinaryOp、Concat、Convolution、Convolution1D、ConvolutionDepthWise、Deconvolution、InnerProduct、Pooling、ReLU、Sigmoid、Softmax 等,并新增 SDPA decode/prefill perf 入口。(@futz12, #6570, #6632
  • benchmark README 新增 Qualcomm Snapdragon X Elite 和多组 Microsoft Azure 实例结果,官方性能参考覆盖更多桌面/云 ARM 平台。(@Ratizux, @MouriNaruto, #6535, #6552

构建 / 发布 / CI

  • release 工作流新增 HarmonyOS 包,覆盖 CPU/Vulkan、静态/动态库四种变体,并修复 android release CMake 参数缺少空格的问题。(#6746
  • HarmonyOS CI 示例 SDK 更新到 HarmonyOS 5.0.3 / native 5.0.3.135。(#6746
  • Python 绑定新增使用系统 pybind11 的 CMake 选项,并更新 pybind11 到 v3.0.4;Python 构建改用 CMake FindPython,移除 Windows ARM64 Python 查找 hack。(@Integral-Tech, #6516, #6744
  • Python release CI 升级 cibuildwheel 到 3.4.1,增加 workflow_dispatch 和 cp314/riscv64 组合,去掉 cibuildwheel job 前的多余 setup-python。(#6634, #6510
  • 修复 macOS arm64 上交叉编译 x86_64 的架构识别,避免目标架构误判。(@LudovicoYIN, #6730
  • 禁用 Clang 下 -Ofast,降低 aggressive optimization 带来的编译/数值风险。(@zhuzeitou, #6520
  • benchmark 代码变化会触发主要平台 CI,README-only benchmark 结果更新除外;simplemath benchmark 构建同步修复。(#6722
  • RISC-V CI 更新 Xuantie/Spacemit toolchain 与 QEMU,release-python riscv64 QEMU workflow 升级 docker/setup-qemu-action。(#6742, #6575
  • GitHub Actions 依赖更新:upload-artifact v7、download-artifact v8、actions/cache v5、github-script v9、codecov v6、setup-qemu v4、gh-release v3、Windows SDK action v2.5。(@dependabot[bot], #6559, #6560, #6596, #6663, #6616, #6575, #6674, #6713
  • 修复二进制大小 PR comment workflow 读取事件 payload 的方式,减少 workflow_run 场景下评论失败。(#6563
  • 修复 Windows ARM 构建、simplemath 构建、pnnx/CI 中若干新工具链兼容性问题。(#6699, #6722, #6701

文档

  • README 大幅整理入口、平台包、转换/API/示例链接,并补充 HarmonyOS 下载入口,首页信息更集中。(@4ek0, #6739, #6746, #6732
  • 新增 Android Hardware Buffer 零拷贝输入指南,说明 Android API 26+ 构建条件、AImageReader_newWithUsage、每 AHB 指针 pipeline cache、Adreno/Mali 跨厂商验证,以及 ex.input(VkMat) 不自动转格式的注意点。(@securekim, #6733
  • 新增 Vulkan pipeline cache 开发文档,解释持久化 cache 的目标、文件结构、失效条件和使用方式。(@futz12, @CLV-Iclucia, #6702
  • operators 文档补充大量层的输入/输出 Mat 维度,尤其是 4D Mat 支持范围。(#6737
  • 量化文档同步 ncnn2table 可无校准数据生成 RNN/GRU/LSTM/MHA/Embed 静态权重 scale 的新流程。(#6688
  • 构建文档修正 RHEL/CentOS 依赖命令,删除过时 msa.h workaround,并简化 HarmonyOS CMake 示例。(@bkmgit, #6692, #6734, #6725
  • 转换文档和 issue template 切到新的 convertmodel 站点。(@futz12, #6617

自动化依赖更新:

New Contributors

Full Changelog: 2026011...2026052

Don't miss a new ncnn release

NewReleases is sending notifications on new releases.