Tencent/ncnn 20260526 on GitHub

编译版本，默认配置，android-ndk-r29，ohos-sdk-5.0.3，xcode 16.4，ubuntu-22.04，ubuntu-24.04，vs2015，vs2017，vs2019，vs2022，emscripten-3.1.28

file	content	arch
ncnn-full-source.zip	包含全部 submodule 代码的完整源码
ncnn-android.zip	android 静态库/动态库	armeabi-v7a + arm64-v8a + x86 + x86_64 + riscv64
ncnn-android-vulkan.zip	android 静态库/动态库，支持 GPU	armeabi-v7a + arm64-v8a + x86 + x86_64 + riscv64
ncnn-harmonyos.zip	harmonyos 静态库/动态库	armeabi-v7a + arm64-v8a + x86_64
ncnn-harmonyos-vulkan.zip	harmonyos 静态库/动态库，支持 GPU	armeabi-v7a + arm64-v8a + x86_64
ncnn-apple.zip	apple xcframework，ios + ios-simulator + macos + mac-catalyst + watchos + watchos-simulator + tvos + tvos-simulator + visionos + visionos-simulator	arm64 + arm64e + x86_64
ncnn-apple-vulkan.zip	apple xcframework，ios + ios-simulator + macos + mac-catalyst + watchos + watchos-simulator + tvos + tvos-simulator + visionos + visionos-simulator，支持 GPU	arm64 + arm64e + x86_64
ncnn-ios.zip	ios 静态库	arm64
ncnn-ios-vulkan.zip	ios 静态库，支持 GPU	arm64
ncnn-ios-simulator.zip	ios simulator 静态库	x86_64 + arm64
ncnn-ios-simulator-vulkan.zip	ios simulator 静态库，支持 GPU	x86_64 + arm64
ncnn-macos.zip	macos 静态库	x86_64 + arm64
ncnn-macos-vulkan.zip	macos 静态库，支持 GPU	x86_64 + arm64
ncnn-mac-catalyst.zip	mac catalyst 静态库	x86_64 + arm64
ncnn-mac-catalyst-vulkan.zip	mac catalyst 静态库，支持 GPU	x86_64 + arm64
ncnn-watchos.zip	watchos 静态库	armv7k + arm64_32
ncnn-watchos-simulator.zip	watchos simulator 静态库	x86_64 + arm64
ncnn-tvos.zip	tvos 静态库	x86_64 + arm64
ncnn-tvos-vulkan.zip	tvos 静态库，支持 GPU	x86_64 + arm64
ncnn-tvos-simulator.zip	tvos simulator 静态库	x86_64 + arm64
ncnn-tvos-simulator-vulkan.zip	tvos simulator 静态库，支持 GPU	x86_64 + arm64
ncnn-visionos.zip	visionos 静态库	arm64
ncnn-visionos-vulkan.zip	visionos 静态库，支持 GPU	arm64
ncnn-visionos-simulator.zip	visionos simulator 静态库	x86_64 + arm64
ncnn-visionos-simulator-vulkan.zip	visionos simulator 静态库，支持 GPU	x86_64 + arm64
ncnn-ubuntu.zip	ubuntu linux 静态库/动态库，支持 GPU，模型转换工具	x86_64
ncnn-windows.zip	windows 静态库/动态库，支持 GPU，模型转换工具	x86 + x64 + arm + arm64
ncnn-webassembly.zip	webassembly 静态库	wasm32 + simd + threads + simd-threads

重点概览

新增 HarmonyOS 预编译包发布流程，release 产物覆盖 CPU/Vulkan、静态/动态库，以及 armeabi-v7a、arm64-v8a、x86_64 三种架构。（#6746）
Vulkan 后端新增 SDPA/FlashAttention、RotaryEmbed、GroupNorm、Reduction、Unfold、Softplus、Shrink 等算子，并引入持久化 pipeline cache、mmap 模型加载、host memory 权重驻留和逐层权重上传，明显面向大模型与长启动耗时优化。（@futz12, @CLV-Iclucia, #6514, #6702, #6537, #6531, #6534）
x86 后端大规模补齐 bf16 storage 路径，覆盖 GEMM、Convolution、InnerProduct、Deconvolution、Pooling、Interp、归一化、激活、逐元素、量化/反量化等层，并增加 AVX512BF16 dispatch 和多项 micro-kernel 优化。（#6598, #6624, #6626, #6680）
ARM 后端新增 ARM SDPA 实现，并为 ARMv8.4 BF16 优化 GEMM、Convolution im2col-GEMM、InnerProduct、MultiHeadAttention；同时补齐 ERF、ELU、GELU、SELU 的 NEON/fp16 SIMD 实现。（@Abandon-ht, @futz12, #6698, #6714, #6715, #6716, #6717, #6605）
RISC-V RVV、MIPS MSA、LoongArch LSX/LASX 后端继续扩展，重点补齐 packed convolution/deconvolution、GEMM、量化/反量化、常见 unary/binary op、bf16/int8 和 4D Mat 支持。（#6662, #6740, #6636, #6658, #6695）
pnnx 支持 .npy 真实输入、输出 FLOPS/memory OPS 统计，兼容 PyTorch 2.10/2.11，修复非对称 padding + conv 融合、Conv2d padding tuple 归一化、Erf 表达式落层等转换问题。（@MollySophia, @Yeuvoir, @crafcat7, #6700, #5836, #6592, #6701, #6694）
新增 benchncnn_llm 和算子级 perf 基础设施，benchmark 覆盖 LLM prefill/decode 与更多 CPU/GPU 算子性能回归。（#6711, #6570, #6632）

Vulkan / GPU

新增 Vulkan SDPA 层和 FlashAttention 路径，基础实现包含 2x2 unroll 和 local memory 优化，后续补齐统一 cross-attention shader、cooperative matrix 与非 cooperative matrix 两套 FlashAttention 实现，支持 mask、KV cache concat 和 chunk 化输出调度。（#6514, #6521, #6528, #6538）
GEMM/SDPA cooperative matrix 和 subgroup 路径继续优化，加入 bf16/fp16 cooperative matrix、4x4 unroll、向量化加载、bank conflict 规避与 packed GEMM；后续限制 bf16 cooperative matrix 用法，避免不匹配的数据布局。（@futz12, #6515, #6524, #6573, #6632）
新增 Vulkan RotaryEmbed、GroupNorm、Reduction、Unfold、Softplus、Shrink 算子，减少 Transformer、norm、shape 处理和常见激活在 GPU 图中的 CPU fallback。（@futz12, #6519, #6556, #6476, #6543, #6478, #6479）
Convolution、Convolution 1x1s1d1、Convolution GEMM、Convolution1D、Deconvolution、Deconvolution GEMM 的多个 pack1/pack4/pack1to4/pack4to1 shader 合并为统一 packed elempack shader，通过 specialization 控制输入输出 packing，减少 shader 和 pipeline 组合数量。（#6561, #6562, #6565, #6566, #6564, #6572）
Conv1D Vulkan 在 fp16 条件下为 1x1s1d1 和 GEMM 路径增加 cooperative matrix，并将权重重新打包为 tile layout，以提升大通道 Conv1D 吞吐。（@futz12, #6587）
新增持久化 pipeline cache，PipelineCache 可保存/加载单文件 cache，记录设备、驱动、pipelineCacheUUID、shader hash、SPIR-V 和 driver pipeline cache 校验；C API 同步增加接口，并新增测试和开发文档。（@futz12, @CLV-Iclucia, #6702）
模型加载新增只读 mmap 路径，Option::use_mapped_model_loading 可减少大模型加载时的一次文件读入拷贝，并校验消费字节数与文件大小一致，失败时回退普通文件读取。（#6537）
新增 Vulkan 权重 host memory 加载策略，Option::use_weights_in_host_memory 可在支持 VK_EXT_external_memory_host 或 host-visible device memory 时将权重驻留 host/shared VRAM；Windows 下改用 shared VRAM 以符合 WDDM 行为。（#6531, #6545, #6547）
模型权重上传改为逐层执行，load_model 在每层 load_model/create_pipeline 后立即上传，并在待上传数据过大时提交并 reset transfer command，降低大模型加载峰值 CPU 内存和 staging buffer 占用。（#6534）
针对 Resizable BAR 优化权重上传，离散 GPU 若 device-local heap 同时 host-visible，则优先分配可映射 device-local 权重内存，减少 staging copy。（#6536）
VkMat / allocator 记录 memory_type_index，设备可判断 buffer 是否 device-local；GEMM 在常量 A/B 位于非 device-local 内存时先 clone 到 device-local，兼顾 host-memory 权重省内存与热点 GEMM 读带宽。（#6581）
packed shape hint 下沉到 Net 加载阶段，依据 shape hint、packing layout 和 fp16/bf16 选项提前计算 packed bottom/top shape，提升 Vulkan layer 创建 pipeline 时的 shape 一致性。（#6553）
Vulkan forward 长命令支持自动分段提交，按 pending dispatch 数和 GPU rough score 阈值提交 command buffer，减少大图或慢 GPU 上的驱动 timeout 风险。（#6541）
模型加载时会清理设备不支持的 Vulkan bf16 packed/storage 选项，避免后续生成非法 shader。（#6522）
Vulkan 扩展启用逻辑补齐依赖关系，对 external memory、8/16bit storage、descriptor indexing、buffer device address、Android hardware buffer 等扩展按前置能力过滤，减少驱动能力误报导致的初始化问题。（#6705）
Qualcomm/Adreno GPU 暂时禁用 KHR/NV cooperative matrix，规避当前硬件/驱动对 ncnn tile unroll 支持不足的问题。（#6719）
修复和兼容 SwiftShader memory type bits、MoltenVK half shader 类型、Reduction fp16 subgroup 扩展声明、llvmpipe atan2(0,0) 结果等 Vulkan 驱动差异。（@NKID00, #6539, #6602, #6615, #6729）
DeepCopy、Normalize、InnerProduct、InstanceNorm、LayerNorm、RMSNorm、Scale、PReLU、ShuffleChannel、Padding 等 Vulkan 路径补充更多 4D Mat 处理，减少 4D 输入回退或 shape 错误。（#6737）

x86 CPU 后端

新增 AbsVal_x86，支持 fp16/bf16 storage，减少 16-bit storage 图中的 fp32 往返转换。（#6584）
LayerNorm、RMSNorm、UnaryOp、BinaryOp 增加 x86 bf16 storage 和 AVX512BF16 dispatch，归一化和逐元素算子在 bf16 模型中更少 fallback。（#6585, #6586, #6588, #6591）
Concat、Slice、Flatten、Reshape、Crop、Padding、Packing 支持 x86 fp16/bf16 storage，使 shape/data movement 层不再强制回到 fp32。（#6593）
BatchNorm、GroupNorm、InstanceNorm、Clip、ReLU、Sigmoid、PReLU、Scale、Swish、Softmax、RotaryEmbed、Tanh、SELU、Mish、HardSwish、HardSigmoid、GELU、ERF、ELU、Eltwise、Dropout、Quantize、Dequantize、BNLL 等补齐 bf16 storage。（#6594, #6595, #6589, #6624）
GEMM、Convolution、InnerProduct、Deconvolution、Convolution1D、Pooling、Interp 全面扩展 x86 bf16 storage，GEMM 增加 out_elemtype，MultiHeadAttention 和 SDPA 可复用 bf16 路径。（#6598, #6623, #6625, #6626, #6627, #6630, #6648, #6649）
AVX512BF16 GEMM 和 Convolution bf16s micro-kernel 继续优化，包括针对 AMD Zen 5 将部分 vpalignr 改为 vpshufd 以避开与 vdpbf16ps 的端口冲突、增加 16x16 kernel 指令调度、N tile x16 和 convolution unroll 16。（#6609, #6673, #6680）
优化 x86 int8 GEMM、InnerProduct 和 Depthwise Convolution 的 SSE4.1 路径，提升 int8 packed/depthwise 推理性能。（@Edwardssss, #6600, #6687）
优化 x86 fp16s InnerProduct GEMM，降低 loop-carried stalls。（@Edwardssss, #6682）
Interp、ERF/GELU、RotaryEmbed、PixelShuffle 增加或优化 SIMD 实现，覆盖 resize、激活、LLM rotary embedding 和 block transpose 场景。（@futz12, @crafcat7, #6597, #6604, #6427, #6690）
DeformableConv2D 和 Deconvolution 改为 unified elempack packed 实现，减少 pack1/4/8/16 多套分支文件。（#6567, #6568）
修复 i386 上 x86 bf16 GEMM packing 顺序、x86 临时 buffer 对齐导致的 ASAN 报错，以及 SSE ShuffleChannel 最后通道处理越界读。（@junwha, #6708, #6703, #5735）

ARM CPU 后端

新增 ARM SDPA layer 实现，内部复用 GEMM + Softmax，覆盖 attention mask 和 KV cache 场景，使 ARM CPU 上 Transformer 注意力路径更完整。（@Abandon-ht, #6698）
ARMv8.4 BF16 优化 GEMM、Convolution im2col-GEMM、InnerProduct、MultiHeadAttention，支持 BF16 指令的 CPU 上核心矩阵乘、卷积和注意力层可直接走 bf16 storage。（#6714, #6715, #6716, #6717）
ERF、ELU、GELU、SELU 增加 ARM SIMD 实现，并补充 fp16 asimdhp 版本，常见激活函数在 NEON/fp16 storage 路径上更快。（@futz12, #6605）
优化 AArch64 exp_ps 和 fp16 exp_ps floor step，减少依赖 exp 的激活和 softmax 类计算开销。（@crafcat7, #6657, #6659）
x86/ARM GEMM 增加 m == 1 优化，覆盖 batch=1、decode、单 token 推理等低延迟场景。（#6723）
修复 Windows ARM 构建问题，并重构 ARM bf16 逻辑以绕过 OHOS clang aarch64 crash。（#6699, #6725）
ARM ShuffleChannel 最后通道处理修复越界读，与 x86 同步补充测试。（@junwha, #5735）

RISC-V / MIPS / LoongArch 后端

RISC-V 新增 fp16 storage GEMM，Gemm_riscv 可根据 ZFH/ZVFH 能力启用 fp16 storage，常量 A/B 支持 16-bit 预打包，减少 fp32 中间存储和转换。（@Xinyu302, #5311）
RISC-V 新增 DeformableConv2D RVV 实现，覆盖 pack1、packn、pack1ton、packnto1 路径，相比 scalar 实现提速约 12.94x 至 20.16x。（@chenglimin, #6540）
RISC-V RVV 批量补齐 Softplus、Exp、Log、Power、Shrink、Threshold、Dropout fp16 等算子实现，新增 fp32 和 ZFH fp16 路径，并补充 Exp/Log/Threshold 测试。（@ihb2032, #6635, #6637, #6638, #6666, #6671, #6676, #6667）
RISC-V RVV 1.0 新增 Quantize、Dequantize、Requantize 实现，支持 packn/int8 packn、per-tensor/per-channel scale、fp16 storage 输入或输出，Requantize 支持 ReLU/LeakyReLU 融合量化路径。（@Deepdive543443, #6636, #6658, #6695）
RISC-V packed convolution/deconvolution 统一实现，删除多个 packn/pack1ton/packnto1 专用头文件，改为 convolution_packed*.h 和 deconvolution_packed*.h 统一调度。（#6731）
RISC-V im2col GEMM 和 Winograd convolution 统一 elempack 优化，新增统一的 convolution_im2col_gemm*.h 和 convolution_3x3_winograd*.h，替换旧的 1x1/sgemm/winograd 分裂实现。（#6740）
MIPS 新增 ELU、Erf、GELU、SELU 的 MSA 实现，避免这些激活层退回通用标量路径。（@futz12, #6607）
MIPS 后端大规模优化，新增/重构 MSA 路径，覆盖 absval、batchnorm、binaryop、bnll、concat/slice/reshape/packing/padding、convolution/deconvolution packed、im2col GEMM、Winograd、bf16/int8 GEMM、pooling、norm、matmul、LSTM/MHA/SDPA、softmax、activation 等大量层。（#6662）
LoongArch 后端大规模优化，扩展 LSX/LASX pack4/pack8 路径，新增 convolution/deconvolution packed、im2col GEMM、Winograd、bf16/int8 GEMM、gridsample、norm、matmul、LSTM/MHA、pooling、softmax、RotaryEmbed、SDPA 等实现。（#6662）
RISC-V、MIPS、LoongArch 同步扩展 BinaryOp 的 fmod、logaddexp、floor_divide、remainder 及反向版本，以及 UnaryOp 的 sign、expm1、log1p、双曲函数和反双曲函数。（@futz12, @crafcat7, #6549, #6675）
RISC-V、MIPS、LoongArch 多个算子补齐 4D Mat 支持，涉及 Quantize、Dequantize、Requantize、InstanceNorm、LayerNorm、PReLU、RMSNorm、Scale、ShuffleChannel 等。（#6737）
整理 MIPS 和 LoongArch packing 代码风格，调整架构宏条件和标量 fallback 结构，降低 pack1/pack4/pack8 分支复杂度。（#6745）
修复 RISC-V fp16 编译警告，RISC-V CI 工具链和 QEMU 更新到更新版本，继续覆盖 RVV/ZFH/ZVFH。（@bluemiao3, #6525, #6742）

通用算子与模型能力

BinaryOp 新增 fmod / rfmod、logaddexp、floor_divide / rfloor_divide、remainder / rremainder，CPU 各后端和 Vulkan shader 同步扩展，并新增测试。（@futz12, #6549）
UnaryOp 新增 sign、expm1、log1p、sinh、cosh、asinh、acosh、atanh，各主要 SIMD/RVV/MSA/LSX/LASX/Vulkan 路径同步补齐，pnnx 和 onnx2ncnn 转换同步支持。（@crafcat7, #6675）
更多算子支持 4D Mat，包括 AbsVal、BNLL、CumulativeSum、Dequantize、Dropout、ERF、EXP、LOG、GLU、HardSigmoid、HardSwish、InnerProduct、InstanceNorm、LayerNorm、MVN、Normalize、Power、PReLU、Quantize、Requantize、RMSNorm、Scale、ShuffleChannel、StatisticsPooling 等，并扩展对应测试和 operators 文档。（#6737）
测试框架加入 CPU fp16 storage 组合，并在 fp16 packed 只适用于 GPU 时跳过 CPU reference；Quantize/Threshold 测试避开 fp16/bf16 舍入边界，提高 16-bit storage 回归稳定性。（#6724）
删除少量虚继承用法，简化 layer 类继承关系。（#6590）
修复 MSVC _aligned_malloc 路径缺少 NCNN_MALLOC_OVERREAD padding 的问题，避免优化 kernel 合法 overread 越过分配边界。（@ihb2032, #6583）

pnnx / 转换工具

pnnx 新增 .npy 输入支持，命令行可通过 input= / input2= 直接提供真实张量，覆盖 TorchScript 和 ONNX 转换路径，减少仅靠 inputshape 推导带来的动态 shape 或 dtype 偏差。（@lovedream-ms, @lancerstadium, @AtomAlpaca, #6700）
pnnx 转换结束打印模型 inputshape、FLOPS 和 memory OPS，并将统计信息写入生成的 pnnx Python 文件头部，便于评估计算量和访存量。（@luxincn, @SZUwishion, #5836）
pnnx 支持 TNN Flatten，扩展 BinaryOp/UnaryOp 新增数学算子的转换，并修复 erf 表达式正确落到 Erf 层。（@Missmiaom, @futz12, @crafcat7, #6513, #6549, #6675, #6677）
单参数 PReLU 自动转成 LeakyReLU，使该模式可继续与卷积融合并减少运行时层数。（@w43322, #6344）
修复 padding + convolution / depthwise convolution 融合时非对称 padding 参数丢失，以及 Conv2d 4 元 padding tuple 到 ncnn padding 语义的归一化问题。（@MollySophia, @Yeuvoir, #6661, #6694）
pnnx CI 更新到 PyTorch 2.10/2.11 相关测试矩阵，并修复 GRU/LSTM ONNX reshape 匹配和 MultiheadAttention(bias=False) 转换兼容性。（#6592, #6701）
pnnx 增加更多 4D Mat 转换和运行覆盖，包括 reflection_pad3d、InstanceNorm3d、rank-4 normalize 等。（#6737）
多个转换工具和 datareader 路径将 sprintf 改为 snprintf，降低 Caffe/MXNet/MLIR/ONNX/pnnx/quantize 工具生成字符串时的缓冲区风险。（@proydakov, #6554）
pnnx Python 包中裸 except 改为 except Exception，减少误吞系统退出类异常。（@haosenwang1018, #6555）

量化与模型写出

ncnn2table 接管 Embed、MultiHeadAttention、RNN、LSTM、GRU 的静态权重量化 scale 生成，这些层可在无校准数据集时生成 table；ncnn2int8 改为要求并消费 table，流程更明确。（@Roundaboutt, #6688）
ncnn2int8 整理 RNN、LSTM、GRU、Embed、MultiHeadAttention、SDPA 的量化处理入口，非 CNN 层的 int8 模型生成路径更完整。（@Roundaboutt, #6688）
ModelWriter 修复 Padding 空 per_channel_pad_data 写出崩溃。（#6533）
ModelWriter 修复可选权重序列化，bias、affine norm 权重、MemoryData、Scale/Requantize bias 等仅在实际存在时写入，避免 .bin 权重错位或加载异常。（@lx-99-lyt, #6726）
ModelWriter 增加 packed shape hint 和 4D shape hint，shape 记录扩展到 d 维，Vulkan/packed layout 路径可获得更完整 shape 信息。（#6553, #6737）

Benchmark / Perf

新增 benchncnn_llm，内置 Hunyuan 0.5B、MiniCPM4 0.5B、Qwen2.5 0.5B、Qwen3 0.6B、Llama3.2 1B、TinyLlama 1.1B、Youtu LLM 2B 的 decoder/proj_out param，可直接 benchmark LLM prefill/decode 并输出 TPS。（#6711）
LLM benchmark 默认序列长度从 1024 调整为 256，使移动端和嵌入式设备更容易完成默认测试。（#6738）
benchmark 模型 param 文件移动到 benchmark/models/，LLM param 放到 benchmark/models/llm/，目录更清晰，CMake 生成内置 param 的路径同步更新。（#6710）
Vision Transformer benchmark 中线性层从 InnerProduct 改为 Gemm，更贴近 transformer/GEMM 优化路径，旧新 ViT 数据不宜直接横向比较。（#6709）
新增算子级 perf 基础设施，覆盖 BatchNorm、BinaryOp、Concat、Convolution、Convolution1D、ConvolutionDepthWise、Deconvolution、InnerProduct、Pooling、ReLU、Sigmoid、Softmax 等，并新增 SDPA decode/prefill perf 入口。（@futz12, #6570, #6632）
benchmark README 新增 Qualcomm Snapdragon X Elite 和多组 Microsoft Azure 实例结果，官方性能参考覆盖更多桌面/云 ARM 平台。（@Ratizux, @MouriNaruto, #6535, #6552）

构建 / 发布 / CI

release 工作流新增 HarmonyOS 包，覆盖 CPU/Vulkan、静态/动态库四种变体，并修复 android release CMake 参数缺少空格的问题。（#6746）
HarmonyOS CI 示例 SDK 更新到 HarmonyOS 5.0.3 / native 5.0.3.135。（#6746）
Python 绑定新增使用系统 pybind11 的 CMake 选项，并更新 pybind11 到 v3.0.4；Python 构建改用 CMake FindPython，移除 Windows ARM64 Python 查找 hack。（@Integral-Tech, #6516, #6744）
Python release CI 升级 cibuildwheel 到 3.4.1，增加 workflow_dispatch 和 cp314/riscv64 组合，去掉 cibuildwheel job 前的多余 setup-python。（#6634, #6510）
修复 macOS arm64 上交叉编译 x86_64 的架构识别，避免目标架构误判。（@LudovicoYIN, #6730）
禁用 Clang 下 -Ofast，降低 aggressive optimization 带来的编译/数值风险。（@zhuzeitou, #6520）
benchmark 代码变化会触发主要平台 CI，README-only benchmark 结果更新除外；simplemath benchmark 构建同步修复。（#6722）
RISC-V CI 更新 Xuantie/Spacemit toolchain 与 QEMU，release-python riscv64 QEMU workflow 升级 docker/setup-qemu-action。（#6742, #6575）
GitHub Actions 依赖更新：upload-artifact v7、download-artifact v8、actions/cache v5、github-script v9、codecov v6、setup-qemu v4、gh-release v3、Windows SDK action v2.5。（@dependabot[bot], #6559, #6560, #6596, #6663, #6616, #6575, #6674, #6713）
修复二进制大小 PR comment workflow 读取事件 payload 的方式，减少 workflow_run 场景下评论失败。（#6563）
修复 Windows ARM 构建、simplemath 构建、pnnx/CI 中若干新工具链兼容性问题。（#6699, #6722, #6701）

文档

README 大幅整理入口、平台包、转换/API/示例链接，并补充 HarmonyOS 下载入口，首页信息更集中。（@4ek0, #6739, #6746, #6732）
新增 Android Hardware Buffer 零拷贝输入指南，说明 Android API 26+ 构建条件、AImageReader_newWithUsage、每 AHB 指针 pipeline cache、Adreno/Mali 跨厂商验证，以及 ex.input(VkMat) 不自动转格式的注意点。（@securekim, #6733）
新增 Vulkan pipeline cache 开发文档，解释持久化 cache 的目标、文件结构、失效条件和使用方式。（@futz12, @CLV-Iclucia, #6702）
operators 文档补充大量层的输入/输出 Mat 维度，尤其是 4D Mat 支持范围。（#6737）
量化文档同步 ncnn2table 可无校准数据生成 RNN/GRU/LSTM/MHA/Embed 静态权重 scale 的新流程。（#6688）
构建文档修正 RHEL/CentOS 依赖命令，删除过时 msa.h workaround，并简化 HarmonyOS CMake 示例。（@bkmgit, #6692, #6734, #6725）
转换文档和 issue template 切到新的 convertmodel 站点。（@futz12, #6617）

自动化依赖更新：

@dependabot[bot]：更新 GitHub Actions / cibuildwheel / release 相关依赖。（#6560, #6616, #6559, #6674, #6596, #6575, #6713, #6663, #6634）

New Contributors

@Missmiaom made their first contribution in #6513
@Integral-Tech made their first contribution in #6516
@bluemiao3 made their first contribution in #6525
@Ratizux made their first contribution in #6535
@chenglimin made their first contribution in #6540
@haosenwang1018 made their first contribution in #6555
@NKID00 made their first contribution in #6615
@crafcat7 made their first contribution in #6657
@bkmgit made their first contribution in #6692
@w43322 made their first contribution in #6344
@junwha made their first contribution in #5735
@Edwardssss made their first contribution in #6687
@Roundaboutt made their first contribution in #6688
@Yeuvoir made their first contribution in #6694
@4ek0 made their first contribution in #6732
@LudovicoYIN made their first contribution in #6730
@lx-99-lyt made their first contribution in #6726
@securekim made their first contribution in #6733

Full Changelog: 2026011...2026052

Tencent/ncnn 20260526 android harmonyos ios macos linux windows webassembly watchos tvos visionos 预编译库 20260526 e54f7b1 on GitHub

重点概览

Vulkan / GPU

x86 CPU 后端

ARM CPU 后端

RISC-V / MIPS / LoongArch 后端

通用算子与模型能力

pnnx / 转换工具

量化与模型写出

Benchmark / Perf

构建 / 发布 / CI

文档

New Contributors

Tencent/ncnn 20260526
android harmonyos ios macos linux windows webassembly watchos tvos visionos 预编译库 20260526 e54f7b1

on GitHub