首页 > 教程攻略 > ai资讯 >双料齐发！明略科技开源 Cider 端侧推理加速框架与 Mano-P 端侧模型

双料齐发！明略科技开源 Cider 端侧推理加速框架与 Mano-P 端侧模型

来源：互联网时间：2026-06-04 13:39:16

最近，明略科技正式开源自研的Cider推理加速SDK，顺带还开源了一个端侧GUI智能体模型——Mano-P。在此之前，他们已经开源了Mano-CUA skill，而这次Mano-P模型的公开，算是直观地展示了端侧模型在真实业务闭环里能有多大潜力。至于Cider框架，则是从计算算子和硬件调用机制的底层入手，让端侧大模型在macOS系统本地算力下跑得更快、内存占用更低。 **Mano-P：验证端侧智能体落地潜能** 先聊Mano-P。它是明略科技自研的端侧GUI-VLA智能体模型，能通过纯视觉方式理解并操作图形界面。不依赖传统API对接，也不局限于浏览器场景，可以直接作用于桌面软件、网页系统，甚至更复杂的图形化工作流。复杂图形界面的交互，天然要求模型具备强大的多模态视觉理解能力。换句话说，模型得持续、高频地处理屏幕截图，精准定位微小的界面元素，并根据视觉反馈执行后续操作。要是走传统的云端大模型架构，这种高频视觉交互带来的token成本消耗，高得吓人。相比之下，参数规模只有4B的Mano-P端侧模型，在CUA任务上的准确率可以媲美云端大模型，而云端接口的调用成本直接降到零——在完全离线的本地模式下，所有的应用截图、交互过程与任务数据都严格锁定在用户本地设备里，隐私安全成了一种“物理隔离”的必然。 **Cider：面向Apple Silicon的端侧推理加速框架** 再来看Cider。决定端侧模型好不好用的核心指标，无非是本地推理速度、硬件利用率、内存占用、接入成本和长期稳定性。推理太慢，AI交互体验直接崩；内存太高，模型很难在主流设备上广泛部署；接入成本居高不下，企业和开发者也没办法把端侧能力快速融入业务。 Cider就是冲着这些问题来的。作为明略科技自研并开源的SDK，它基于Apple MLX生态构建，专为macOS和Apple Silicon打造。它精准补齐了MLX原生框架在激活量化与特定张量计算能力上的缺失，是一套面向广泛开源模型生态的高效端侧推理框架。当前，Apple MLX原生架构已经支持W4A16、W8A16等权重量化模式。在此基础上，Cider进一步提供了W8A8和W4A8推理路径。通过深度融合在线激活量化、INT8 TensorOps计算、量化矩阵乘和反量化流程，Cider充分释放了Apple Silicon的底层计算潜能，让开源模型不仅“能在Mac上跑”，还能以更高效率、更低内存占用的姿态流畅运行。实测数据很说明问题：Cider在W8A8模式下的算子速度，比原生MLX模式提升了约1.4到1.9倍，具体表现取决于Batch Size。而在W4A8模式下，Cider比W8A8模式进一步降低了50%的权重内存占用，在高并发场景下还能与原生MLX的全精度W4A16方案在计算速度上相抗衡。针对Qwen3-VL系列主流视觉语言模型，Cider在端到端预填充场景中展现出了显著的加速效果。在不同长度提示词下，相比原生MLX W8A16模式，Cider的W8A8 PC模式为Qwen3-VL-4B模型带来了约17%到22%的预填充速度提升；而在Qwen3-VL-2B模型上，这一提升更是跃升至约57%到61%。此外，Cider还针对多图推理中的RoPE位置处理等技术难点进行了深度优化与非侵入性修复，大幅提升了复杂视觉任务的推理稳定性。考虑到视觉交互任务通常需要处理更长的上下文、更复杂的截图信息以及更密集的推理请求，这种量级上的性能跃升，对端侧VLM和GUI智能体来说，尤为关键。 Cider还在积极探索基于M4芯片的Apple Neural Engine与GPU之间的异构协同。过去，端侧大模型推理主要依赖GPU，Apple芯片中Neural Engine的潜力并没有被充分挖掘。Cider通过引入ANE+GPU异构张量并行机制，让两类计算单元协同作战，在部分测试场景下额外斩获了约3%到16%的加速效果。 **极简接入，让更多开源模型获得本地加速能力** Cider可以无缝兼容任意LLM模型，涵盖Qwen、Llama、Mistral以及Qwen3-VL等VLM模型，并内置了OpenAI兼容的VLM推理服务。企业和开发者无需重写模型结构，只需要极少量代码适配，就能便捷接入。在预填充阶段，Cider支持启用W8A8 INT8 TensorOps，大幅拉升计算速度；而在解码阶段，框架会智能回退到原有权重路径，避免引入不必要的额外开销。无论是企业想在内部网络部署高度定制化的本地大语言模型，还是开发者想构建垂直领域的私有化AI应用矩阵，Cider都提供了一套坚实、可靠且极具延展性的底层推理基础设施。 **面向私有化AI，构建本地智能基础设施** 过去，大模型应用大多依赖云端算力。云端模型规模化能力强，但在企业级场景中，数据传输成本、隐私安全、调用费用和网络依赖，都是绕不开的问题。尤其是在涉及内部系统、核心业务流程、敏感界面截图和任务数据的场景下，端侧AI能让模型更靠近数据发生的地方，在降低传输风险的同时，提升响应速度和自主可控性。 Cider通过提升本地推理效率，让“数据不出设备”这个理念更接近真实可用的工程方案。当本地模型具备更好的推理性能，企业就有底气在更多场景中探索私有化AI——比如本地智能助手、企业内部Agent、离线任务执行、端侧多模态分析，以及高保密要求的自动化流程。后续，明略科技还会开源完整的Mano-Action训练方法和相关工具，帮助企业和开发者基于自己的数据训练定制化的GUI智能体模型，或者在Mano-Action基础上开发新的训练技术。这相当于全面赋能企业定制与算法创新。明略科技正把自身在智能体、多模态模型和企业级AI应用领域的深厚积淀，进一步向下延伸到底层推理框架与端侧模型研发的根基上。最终目标，是为广大开发者与企业用户提供一套完整、开箱即用的私有化人工智能基础设施，让AI真正走向私有化部署、低成本运行与可信落地。

双料齐发！明略科技开源 Cider 端侧推理加速框架与 Mano-P 端侧模型

相关阅读

相关下载