编译版本,默认配置,android-ndk-r29,ohos-sdk-5.0.3,xcode 16.4,ubuntu-22.04,ubuntu-24.04,vs2015,vs2017,vs2019,vs2022,emscripten-3.1.28
| file | content | arch |
|---|---|---|
| ncnn-full-source.zip | 包含全部 submodule 代码的完整源码 | |
| ncnn-android.zip | android 静态库/动态库 | armeabi-v7a + arm64-v8a + x86 + x86_64 + riscv64 |
| ncnn-android-vulkan.zip | android 静态库/动态库,支持 GPU | armeabi-v7a + arm64-v8a + x86 + x86_64 + riscv64 |
| ncnn-harmonyos.zip | harmonyos 静态库/动态库 | armeabi-v7a + arm64-v8a + x86_64 |
| ncnn-harmonyos-vulkan.zip | harmonyos 静态库/动态库,支持 GPU | armeabi-v7a + arm64-v8a + x86_64 |
| ncnn-apple.zip | apple xcframework,ios + ios-simulator + macos + mac-catalyst + watchos + watchos-simulator + tvos + tvos-simulator + visionos + visionos-simulator | arm64 + arm64e + x86_64 |
| ncnn-apple-vulkan.zip | apple xcframework,ios + ios-simulator + macos + mac-catalyst + watchos + watchos-simulator + tvos + tvos-simulator + visionos + visionos-simulator,支持 GPU | arm64 + arm64e + x86_64 |
| ncnn-ios.zip | ios 静态库 | arm64 |
| ncnn-ios-vulkan.zip | ios 静态库,支持 GPU | arm64 |
| ncnn-ios-simulator.zip | ios simulator 静态库 | x86_64 + arm64 |
| ncnn-ios-simulator-vulkan.zip | ios simulator 静态库,支持 GPU | x86_64 + arm64 |
| ncnn-macos.zip | macos 静态库 | x86_64 + arm64 |
| ncnn-macos-vulkan.zip | macos 静态库,支持 GPU | x86_64 + arm64 |
| ncnn-mac-catalyst.zip | mac catalyst 静态库 | x86_64 + arm64 |
| ncnn-mac-catalyst-vulkan.zip | mac catalyst 静态库,支持 GPU | x86_64 + arm64 |
| ncnn-watchos.zip | watchos 静态库 | armv7k + arm64_32 |
| ncnn-watchos-simulator.zip | watchos simulator 静态库 | x86_64 + arm64 |
| ncnn-tvos.zip | tvos 静态库 | x86_64 + arm64 |
| ncnn-tvos-vulkan.zip | tvos 静态库,支持 GPU | x86_64 + arm64 |
| ncnn-tvos-simulator.zip | tvos simulator 静态库 | x86_64 + arm64 |
| ncnn-tvos-simulator-vulkan.zip | tvos simulator 静态库,支持 GPU | x86_64 + arm64 |
| ncnn-visionos.zip | visionos 静态库 | arm64 |
| ncnn-visionos-vulkan.zip | visionos 静态库,支持 GPU | arm64 |
| ncnn-visionos-simulator.zip | visionos simulator 静态库 | x86_64 + arm64 |
| ncnn-visionos-simulator-vulkan.zip | visionos simulator 静态库,支持 GPU | x86_64 + arm64 |
| ncnn-ubuntu.zip | ubuntu linux 静态库/动态库,支持 GPU,模型转换工具 | x86_64 |
| ncnn-windows.zip | windows 静态库/动态库,支持 GPU,模型转换工具 | x86 + x64 + arm + arm64 |
| ncnn-webassembly.zip | webassembly 静态库 | wasm32 + simd + threads + simd-threads |
重点概览
- 新增 HarmonyOS 预编译包发布流程,release 产物覆盖 CPU/Vulkan、静态/动态库,以及
armeabi-v7a、arm64-v8a、x86_64三种架构。(#6746) - Vulkan 后端新增 SDPA/FlashAttention、RotaryEmbed、GroupNorm、Reduction、Unfold、Softplus、Shrink 等算子,并引入持久化 pipeline cache、mmap 模型加载、host memory 权重驻留和逐层权重上传,明显面向大模型与长启动耗时优化。(@futz12, @CLV-Iclucia, #6514, #6702, #6537, #6531, #6534)
- x86 后端大规模补齐 bf16 storage 路径,覆盖 GEMM、Convolution、InnerProduct、Deconvolution、Pooling、Interp、归一化、激活、逐元素、量化/反量化等层,并增加 AVX512BF16 dispatch 和多项 micro-kernel 优化。(#6598, #6624, #6626, #6680)
- ARM 后端新增 ARM SDPA 实现,并为 ARMv8.4 BF16 优化 GEMM、Convolution im2col-GEMM、InnerProduct、MultiHeadAttention;同时补齐 ERF、ELU、GELU、SELU 的 NEON/fp16 SIMD 实现。(@Abandon-ht, @futz12, #6698, #6714, #6715, #6716, #6717, #6605)
- RISC-V RVV、MIPS MSA、LoongArch LSX/LASX 后端继续扩展,重点补齐 packed convolution/deconvolution、GEMM、量化/反量化、常见 unary/binary op、bf16/int8 和 4D Mat 支持。(#6662, #6740, #6636, #6658, #6695)
- pnnx 支持
.npy真实输入、输出 FLOPS/memory OPS 统计,兼容 PyTorch 2.10/2.11,修复非对称 padding + conv 融合、Conv2d padding tuple 归一化、Erf 表达式落层等转换问题。(@MollySophia, @Yeuvoir, @crafcat7, #6700, #5836, #6592, #6701, #6694) - 新增
benchncnn_llm和算子级 perf 基础设施,benchmark 覆盖 LLM prefill/decode 与更多 CPU/GPU 算子性能回归。(#6711, #6570, #6632)
Vulkan / GPU
- 新增 Vulkan SDPA 层和 FlashAttention 路径,基础实现包含 2x2 unroll 和 local memory 优化,后续补齐统一 cross-attention shader、cooperative matrix 与非 cooperative matrix 两套 FlashAttention 实现,支持 mask、KV cache concat 和 chunk 化输出调度。(#6514, #6521, #6528, #6538)
- GEMM/SDPA cooperative matrix 和 subgroup 路径继续优化,加入 bf16/fp16 cooperative matrix、4x4 unroll、向量化加载、bank conflict 规避与 packed GEMM;后续限制 bf16 cooperative matrix 用法,避免不匹配的数据布局。(@futz12, #6515, #6524, #6573, #6632)
- 新增 Vulkan RotaryEmbed、GroupNorm、Reduction、Unfold、Softplus、Shrink 算子,减少 Transformer、norm、shape 处理和常见激活在 GPU 图中的 CPU fallback。(@futz12, #6519, #6556, #6476, #6543, #6478, #6479)
- Convolution、Convolution 1x1s1d1、Convolution GEMM、Convolution1D、Deconvolution、Deconvolution GEMM 的多个 pack1/pack4/pack1to4/pack4to1 shader 合并为统一 packed elempack shader,通过 specialization 控制输入输出 packing,减少 shader 和 pipeline 组合数量。(#6561, #6562, #6565, #6566, #6564, #6572)
- Conv1D Vulkan 在 fp16 条件下为 1x1s1d1 和 GEMM 路径增加 cooperative matrix,并将权重重新打包为 tile layout,以提升大通道 Conv1D 吞吐。(@futz12, #6587)
- 新增持久化 pipeline cache,
PipelineCache可保存/加载单文件 cache,记录设备、驱动、pipelineCacheUUID、shader hash、SPIR-V 和 driver pipeline cache 校验;C API 同步增加接口,并新增测试和开发文档。(@futz12, @CLV-Iclucia, #6702) - 模型加载新增只读 mmap 路径,
Option::use_mapped_model_loading可减少大模型加载时的一次文件读入拷贝,并校验消费字节数与文件大小一致,失败时回退普通文件读取。(#6537) - 新增 Vulkan 权重 host memory 加载策略,
Option::use_weights_in_host_memory可在支持VK_EXT_external_memory_host或 host-visible device memory 时将权重驻留 host/shared VRAM;Windows 下改用 shared VRAM 以符合 WDDM 行为。(#6531, #6545, #6547) - 模型权重上传改为逐层执行,
load_model在每层load_model/create_pipeline后立即上传,并在待上传数据过大时提交并 reset transfer command,降低大模型加载峰值 CPU 内存和 staging buffer 占用。(#6534) - 针对 Resizable BAR 优化权重上传,离散 GPU 若 device-local heap 同时 host-visible,则优先分配可映射 device-local 权重内存,减少 staging copy。(#6536)
VkMat/ allocator 记录memory_type_index,设备可判断 buffer 是否 device-local;GEMM 在常量 A/B 位于非 device-local 内存时先 clone 到 device-local,兼顾 host-memory 权重省内存与热点 GEMM 读带宽。(#6581)- packed shape hint 下沉到 Net 加载阶段,依据 shape hint、packing layout 和 fp16/bf16 选项提前计算 packed bottom/top shape,提升 Vulkan layer 创建 pipeline 时的 shape 一致性。(#6553)
- Vulkan forward 长命令支持自动分段提交,按 pending dispatch 数和 GPU rough score 阈值提交 command buffer,减少大图或慢 GPU 上的驱动 timeout 风险。(#6541)
- 模型加载时会清理设备不支持的 Vulkan bf16 packed/storage 选项,避免后续生成非法 shader。(#6522)
- Vulkan 扩展启用逻辑补齐依赖关系,对 external memory、8/16bit storage、descriptor indexing、buffer device address、Android hardware buffer 等扩展按前置能力过滤,减少驱动能力误报导致的初始化问题。(#6705)
- Qualcomm/Adreno GPU 暂时禁用 KHR/NV cooperative matrix,规避当前硬件/驱动对 ncnn tile unroll 支持不足的问题。(#6719)
- 修复和兼容 SwiftShader memory type bits、MoltenVK half shader 类型、Reduction fp16 subgroup 扩展声明、llvmpipe
atan2(0,0)结果等 Vulkan 驱动差异。(@NKID00, #6539, #6602, #6615, #6729) - DeepCopy、Normalize、InnerProduct、InstanceNorm、LayerNorm、RMSNorm、Scale、PReLU、ShuffleChannel、Padding 等 Vulkan 路径补充更多 4D Mat 处理,减少 4D 输入回退或 shape 错误。(#6737)
x86 CPU 后端
- 新增
AbsVal_x86,支持 fp16/bf16 storage,减少 16-bit storage 图中的 fp32 往返转换。(#6584) - LayerNorm、RMSNorm、UnaryOp、BinaryOp 增加 x86 bf16 storage 和 AVX512BF16 dispatch,归一化和逐元素算子在 bf16 模型中更少 fallback。(#6585, #6586, #6588, #6591)
- Concat、Slice、Flatten、Reshape、Crop、Padding、Packing 支持 x86 fp16/bf16 storage,使 shape/data movement 层不再强制回到 fp32。(#6593)
- BatchNorm、GroupNorm、InstanceNorm、Clip、ReLU、Sigmoid、PReLU、Scale、Swish、Softmax、RotaryEmbed、Tanh、SELU、Mish、HardSwish、HardSigmoid、GELU、ERF、ELU、Eltwise、Dropout、Quantize、Dequantize、BNLL 等补齐 bf16 storage。(#6594, #6595, #6589, #6624)
- GEMM、Convolution、InnerProduct、Deconvolution、Convolution1D、Pooling、Interp 全面扩展 x86 bf16 storage,GEMM 增加
out_elemtype,MultiHeadAttention 和 SDPA 可复用 bf16 路径。(#6598, #6623, #6625, #6626, #6627, #6630, #6648, #6649) - AVX512BF16 GEMM 和 Convolution bf16s micro-kernel 继续优化,包括针对 AMD Zen 5 将部分
vpalignr改为vpshufd以避开与vdpbf16ps的端口冲突、增加 16x16 kernel 指令调度、N tile x16 和 convolution unroll 16。(#6609, #6673, #6680) - 优化 x86 int8 GEMM、InnerProduct 和 Depthwise Convolution 的 SSE4.1 路径,提升 int8 packed/depthwise 推理性能。(@Edwardssss, #6600, #6687)
- 优化 x86 fp16s InnerProduct GEMM,降低 loop-carried stalls。(@Edwardssss, #6682)
- Interp、ERF/GELU、RotaryEmbed、PixelShuffle 增加或优化 SIMD 实现,覆盖 resize、激活、LLM rotary embedding 和 block transpose 场景。(@futz12, @crafcat7, #6597, #6604, #6427, #6690)
- DeformableConv2D 和 Deconvolution 改为 unified elempack packed 实现,减少 pack1/4/8/16 多套分支文件。(#6567, #6568)
- 修复 i386 上 x86 bf16 GEMM packing 顺序、x86 临时 buffer 对齐导致的 ASAN 报错,以及 SSE ShuffleChannel 最后通道处理越界读。(@junwha, #6708, #6703, #5735)
ARM CPU 后端
- 新增 ARM SDPA layer 实现,内部复用 GEMM + Softmax,覆盖 attention mask 和 KV cache 场景,使 ARM CPU 上 Transformer 注意力路径更完整。(@Abandon-ht, #6698)
- ARMv8.4 BF16 优化 GEMM、Convolution im2col-GEMM、InnerProduct、MultiHeadAttention,支持 BF16 指令的 CPU 上核心矩阵乘、卷积和注意力层可直接走 bf16 storage。(#6714, #6715, #6716, #6717)
- ERF、ELU、GELU、SELU 增加 ARM SIMD 实现,并补充 fp16 asimdhp 版本,常见激活函数在 NEON/fp16 storage 路径上更快。(@futz12, #6605)
- 优化 AArch64
exp_ps和 fp16exp_psfloor step,减少依赖 exp 的激活和 softmax 类计算开销。(@crafcat7, #6657, #6659) - x86/ARM GEMM 增加
m == 1优化,覆盖 batch=1、decode、单 token 推理等低延迟场景。(#6723) - 修复 Windows ARM 构建问题,并重构 ARM bf16 逻辑以绕过 OHOS clang aarch64 crash。(#6699, #6725)
- ARM ShuffleChannel 最后通道处理修复越界读,与 x86 同步补充测试。(@junwha, #5735)
RISC-V / MIPS / LoongArch 后端
- RISC-V 新增 fp16 storage GEMM,
Gemm_riscv可根据 ZFH/ZVFH 能力启用 fp16 storage,常量 A/B 支持 16-bit 预打包,减少 fp32 中间存储和转换。(@Xinyu302, #5311) - RISC-V 新增 DeformableConv2D RVV 实现,覆盖 pack1、packn、pack1ton、packnto1 路径,相比 scalar 实现提速约 12.94x 至 20.16x。(@chenglimin, #6540)
- RISC-V RVV 批量补齐 Softplus、Exp、Log、Power、Shrink、Threshold、Dropout fp16 等算子实现,新增 fp32 和 ZFH fp16 路径,并补充 Exp/Log/Threshold 测试。(@ihb2032, #6635, #6637, #6638, #6666, #6671, #6676, #6667)
- RISC-V RVV 1.0 新增 Quantize、Dequantize、Requantize 实现,支持 packn/int8 packn、per-tensor/per-channel scale、fp16 storage 输入或输出,Requantize 支持 ReLU/LeakyReLU 融合量化路径。(@Deepdive543443, #6636, #6658, #6695)
- RISC-V packed convolution/deconvolution 统一实现,删除多个 packn/pack1ton/packnto1 专用头文件,改为
convolution_packed*.h和deconvolution_packed*.h统一调度。(#6731) - RISC-V im2col GEMM 和 Winograd convolution 统一 elempack 优化,新增统一的
convolution_im2col_gemm*.h和convolution_3x3_winograd*.h,替换旧的 1x1/sgemm/winograd 分裂实现。(#6740) - MIPS 新增 ELU、Erf、GELU、SELU 的 MSA 实现,避免这些激活层退回通用标量路径。(@futz12, #6607)
- MIPS 后端大规模优化,新增/重构 MSA 路径,覆盖 absval、batchnorm、binaryop、bnll、concat/slice/reshape/packing/padding、convolution/deconvolution packed、im2col GEMM、Winograd、bf16/int8 GEMM、pooling、norm、matmul、LSTM/MHA/SDPA、softmax、activation 等大量层。(#6662)
- LoongArch 后端大规模优化,扩展 LSX/LASX pack4/pack8 路径,新增 convolution/deconvolution packed、im2col GEMM、Winograd、bf16/int8 GEMM、gridsample、norm、matmul、LSTM/MHA、pooling、softmax、RotaryEmbed、SDPA 等实现。(#6662)
- RISC-V、MIPS、LoongArch 同步扩展 BinaryOp 的
fmod、logaddexp、floor_divide、remainder及反向版本,以及 UnaryOp 的sign、expm1、log1p、双曲函数和反双曲函数。(@futz12, @crafcat7, #6549, #6675) - RISC-V、MIPS、LoongArch 多个算子补齐 4D Mat 支持,涉及 Quantize、Dequantize、Requantize、InstanceNorm、LayerNorm、PReLU、RMSNorm、Scale、ShuffleChannel 等。(#6737)
- 整理 MIPS 和 LoongArch packing 代码风格,调整架构宏条件和标量 fallback 结构,降低 pack1/pack4/pack8 分支复杂度。(#6745)
- 修复 RISC-V fp16 编译警告,RISC-V CI 工具链和 QEMU 更新到更新版本,继续覆盖 RVV/ZFH/ZVFH。(@bluemiao3, #6525, #6742)
通用算子与模型能力
- BinaryOp 新增
fmod/rfmod、logaddexp、floor_divide/rfloor_divide、remainder/rremainder,CPU 各后端和 Vulkan shader 同步扩展,并新增测试。(@futz12, #6549) - UnaryOp 新增
sign、expm1、log1p、sinh、cosh、asinh、acosh、atanh,各主要 SIMD/RVV/MSA/LSX/LASX/Vulkan 路径同步补齐,pnnx 和 onnx2ncnn 转换同步支持。(@crafcat7, #6675) - 更多算子支持 4D Mat,包括 AbsVal、BNLL、CumulativeSum、Dequantize、Dropout、ERF、EXP、LOG、GLU、HardSigmoid、HardSwish、InnerProduct、InstanceNorm、LayerNorm、MVN、Normalize、Power、PReLU、Quantize、Requantize、RMSNorm、Scale、ShuffleChannel、StatisticsPooling 等,并扩展对应测试和 operators 文档。(#6737)
- 测试框架加入 CPU fp16 storage 组合,并在 fp16 packed 只适用于 GPU 时跳过 CPU reference;Quantize/Threshold 测试避开 fp16/bf16 舍入边界,提高 16-bit storage 回归稳定性。(#6724)
- 删除少量虚继承用法,简化 layer 类继承关系。(#6590)
- 修复 MSVC
_aligned_malloc路径缺少NCNN_MALLOC_OVERREADpadding 的问题,避免优化 kernel 合法 overread 越过分配边界。(@ihb2032, #6583)
pnnx / 转换工具
- pnnx 新增
.npy输入支持,命令行可通过input=/input2=直接提供真实张量,覆盖 TorchScript 和 ONNX 转换路径,减少仅靠inputshape推导带来的动态 shape 或 dtype 偏差。(@lovedream-ms, @lancerstadium, @AtomAlpaca, #6700) - pnnx 转换结束打印模型
inputshape、FLOPS 和 memory OPS,并将统计信息写入生成的 pnnx Python 文件头部,便于评估计算量和访存量。(@luxincn, @SZUwishion, #5836) - pnnx 支持 TNN
Flatten,扩展 BinaryOp/UnaryOp 新增数学算子的转换,并修复erf表达式正确落到Erf层。(@Missmiaom, @futz12, @crafcat7, #6513, #6549, #6675, #6677) - 单参数
PReLU自动转成LeakyReLU,使该模式可继续与卷积融合并减少运行时层数。(@w43322, #6344) - 修复 padding + convolution / depthwise convolution 融合时非对称 padding 参数丢失,以及
Conv2d4 元 padding tuple 到 ncnn padding 语义的归一化问题。(@MollySophia, @Yeuvoir, #6661, #6694) - pnnx CI 更新到 PyTorch 2.10/2.11 相关测试矩阵,并修复 GRU/LSTM ONNX reshape 匹配和
MultiheadAttention(bias=False)转换兼容性。(#6592, #6701) - pnnx 增加更多 4D Mat 转换和运行覆盖,包括
reflection_pad3d、InstanceNorm3d、rank-4 normalize 等。(#6737) - 多个转换工具和 datareader 路径将
sprintf改为snprintf,降低 Caffe/MXNet/MLIR/ONNX/pnnx/quantize 工具生成字符串时的缓冲区风险。(@proydakov, #6554) - pnnx Python 包中裸
except改为except Exception,减少误吞系统退出类异常。(@haosenwang1018, #6555)
量化与模型写出
ncnn2table接管 Embed、MultiHeadAttention、RNN、LSTM、GRU 的静态权重量化 scale 生成,这些层可在无校准数据集时生成 table;ncnn2int8改为要求并消费 table,流程更明确。(@Roundaboutt, #6688)ncnn2int8整理 RNN、LSTM、GRU、Embed、MultiHeadAttention、SDPA 的量化处理入口,非 CNN 层的 int8 模型生成路径更完整。(@Roundaboutt, #6688)ModelWriter修复 Padding 空per_channel_pad_data写出崩溃。(#6533)ModelWriter修复可选权重序列化,bias、affine norm 权重、MemoryData、Scale/Requantize bias 等仅在实际存在时写入,避免.bin权重错位或加载异常。(@lx-99-lyt, #6726)ModelWriter增加 packed shape hint 和 4D shape hint,shape 记录扩展到d维,Vulkan/packed layout 路径可获得更完整 shape 信息。(#6553, #6737)
Benchmark / Perf
- 新增
benchncnn_llm,内置 Hunyuan 0.5B、MiniCPM4 0.5B、Qwen2.5 0.5B、Qwen3 0.6B、Llama3.2 1B、TinyLlama 1.1B、Youtu LLM 2B 的 decoder/proj_out param,可直接 benchmark LLM prefill/decode 并输出 TPS。(#6711) - LLM benchmark 默认序列长度从 1024 调整为 256,使移动端和嵌入式设备更容易完成默认测试。(#6738)
- benchmark 模型 param 文件移动到
benchmark/models/,LLM param 放到benchmark/models/llm/,目录更清晰,CMake 生成内置 param 的路径同步更新。(#6710) - Vision Transformer benchmark 中线性层从
InnerProduct改为Gemm,更贴近 transformer/GEMM 优化路径,旧新 ViT 数据不宜直接横向比较。(#6709) - 新增算子级 perf 基础设施,覆盖 BatchNorm、BinaryOp、Concat、Convolution、Convolution1D、ConvolutionDepthWise、Deconvolution、InnerProduct、Pooling、ReLU、Sigmoid、Softmax 等,并新增 SDPA decode/prefill perf 入口。(@futz12, #6570, #6632)
- benchmark README 新增 Qualcomm Snapdragon X Elite 和多组 Microsoft Azure 实例结果,官方性能参考覆盖更多桌面/云 ARM 平台。(@Ratizux, @MouriNaruto, #6535, #6552)
构建 / 发布 / CI
- release 工作流新增 HarmonyOS 包,覆盖 CPU/Vulkan、静态/动态库四种变体,并修复 android release CMake 参数缺少空格的问题。(#6746)
- HarmonyOS CI 示例 SDK 更新到 HarmonyOS 5.0.3 / native 5.0.3.135。(#6746)
- Python 绑定新增使用系统 pybind11 的 CMake 选项,并更新 pybind11 到 v3.0.4;Python 构建改用 CMake FindPython,移除 Windows ARM64 Python 查找 hack。(@Integral-Tech, #6516, #6744)
- Python release CI 升级 cibuildwheel 到 3.4.1,增加
workflow_dispatch和 cp314/riscv64 组合,去掉 cibuildwheel job 前的多余 setup-python。(#6634, #6510) - 修复 macOS arm64 上交叉编译 x86_64 的架构识别,避免目标架构误判。(@LudovicoYIN, #6730)
- 禁用 Clang 下
-Ofast,降低 aggressive optimization 带来的编译/数值风险。(@zhuzeitou, #6520) - benchmark 代码变化会触发主要平台 CI,README-only benchmark 结果更新除外;simplemath benchmark 构建同步修复。(#6722)
- RISC-V CI 更新 Xuantie/Spacemit toolchain 与 QEMU,release-python riscv64 QEMU workflow 升级
docker/setup-qemu-action。(#6742, #6575) - GitHub Actions 依赖更新:upload-artifact v7、download-artifact v8、actions/cache v5、github-script v9、codecov v6、setup-qemu v4、gh-release v3、Windows SDK action v2.5。(@dependabot[bot], #6559, #6560, #6596, #6663, #6616, #6575, #6674, #6713)
- 修复二进制大小 PR comment workflow 读取事件 payload 的方式,减少 workflow_run 场景下评论失败。(#6563)
- 修复 Windows ARM 构建、simplemath 构建、pnnx/CI 中若干新工具链兼容性问题。(#6699, #6722, #6701)
文档
- README 大幅整理入口、平台包、转换/API/示例链接,并补充 HarmonyOS 下载入口,首页信息更集中。(@4ek0, #6739, #6746, #6732)
- 新增 Android Hardware Buffer 零拷贝输入指南,说明 Android API 26+ 构建条件、
AImageReader_newWithUsage、每 AHB 指针 pipeline cache、Adreno/Mali 跨厂商验证,以及ex.input(VkMat)不自动转格式的注意点。(@securekim, #6733) - 新增 Vulkan pipeline cache 开发文档,解释持久化 cache 的目标、文件结构、失效条件和使用方式。(@futz12, @CLV-Iclucia, #6702)
- operators 文档补充大量层的输入/输出 Mat 维度,尤其是 4D Mat 支持范围。(#6737)
- 量化文档同步
ncnn2table可无校准数据生成 RNN/GRU/LSTM/MHA/Embed 静态权重 scale 的新流程。(#6688) - 构建文档修正 RHEL/CentOS 依赖命令,删除过时
msa.hworkaround,并简化 HarmonyOS CMake 示例。(@bkmgit, #6692, #6734, #6725) - 转换文档和 issue template 切到新的 convertmodel 站点。(@futz12, #6617)
自动化依赖更新:
- @dependabot[bot]:更新 GitHub Actions / cibuildwheel / release 相关依赖。(#6560, #6616, #6559, #6674, #6596, #6575, #6713, #6663, #6634)
New Contributors
- @Missmiaom made their first contribution in #6513
- @Integral-Tech made their first contribution in #6516
- @bluemiao3 made their first contribution in #6525
- @Ratizux made their first contribution in #6535
- @chenglimin made their first contribution in #6540
- @haosenwang1018 made their first contribution in #6555
- @NKID00 made their first contribution in #6615
- @crafcat7 made their first contribution in #6657
- @bkmgit made their first contribution in #6692
- @w43322 made their first contribution in #6344
- @junwha made their first contribution in #5735
- @Edwardssss made their first contribution in #6687
- @Roundaboutt made their first contribution in #6688
- @Yeuvoir made their first contribution in #6694
- @4ek0 made their first contribution in #6732
- @LudovicoYIN made their first contribution in #6730
- @lx-99-lyt made their first contribution in #6726
- @securekim made their first contribution in #6733
Full Changelog: 2026011...2026052