首页 > 教程攻略 > ai资讯 >双料齐发!明略科技开源 Cider 端侧推理加速框架与 Mano-P 端侧模型

双料齐发!明略科技开源 Cider 端侧推理加速框架与 Mano-P 端侧模型

来源:互联网 时间:2026-06-04 13:39:16
最近,明略科技正式开源自研的Cider推理加速SDK,顺带还开源了一个端侧GUI智能体模型——Mano-P。在此之前,他们已经开源了Mano-CUA skill,而这次Mano-P模型的公开,算是直观地展示了端侧模型在真实业务闭环里能有多大潜力。至于Cider框架,则是从计算算子和硬件调用机制的底层入手,让端侧大模型在macOS系统本地算力下跑得更快、内存占用更低。 **Mano-P:验证端侧智能体落地潜能** 先聊Mano-P。它是明略科技自研的端侧GUI-VLA智能体模型,能通过纯视觉方式理解并操作图形界面。不依赖传统API对接,也不局限于浏览器场景,可以直接作用于桌面软件、网页系统,甚至更复杂的图形化工作流。 复杂图形界面的交互,天然要求模型具备强大的多模态视觉理解能力。换句话说,模型得持续、高频地处理屏幕截图,精准定位微小的界面元素,并根据视觉反馈执行后续操作。要是走传统的云端大模型架构,这种高频视觉交互带来的token成本消耗,高得吓人。 相比之下,参数规模只有4B的Mano-P端侧模型,在CUA任务上的准确率可以媲美云端大模型,而云端接口的调用成本直接降到零——在完全离线的本地模式下,所有的应用截图、交互过程与任务数据都严格锁定在用户本地设备里,隐私安全成了一种“物理隔离”的必然。 **Cider:面向Apple Silicon的端侧推理加速框架** 再来看Cider。决定端侧模型好不好用的核心指标,无非是本地推理速度、硬件利用率、内存占用、接入成本和长期稳定性。推理太慢,AI交互体验直接崩;内存太高,模型很难在主流设备上广泛部署;接入成本居高不下,企业和开发者也没办法把端侧能力快速融入业务。 Cider就是冲着这些问题来的。作为明略科技自研并开源的SDK,它基于Apple MLX生态构建,专为macOS和Apple Silicon打造。它精准补齐了MLX原生框架在激活量化与特定张量计算能力上的缺失,是一套面向广泛开源模型生态的高效端侧推理框架。 当前,Apple MLX原生架构已经支持W4A16、W8A16等权重量化模式。在此基础上,Cider进一步提供了W8A8和W4A8推理路径。通过深度融合在线激活量化、INT8 TensorOps计算、量化矩阵乘和反量化流程,Cider充分释放了Apple Silicon的底层计算潜能,让开源模型不仅“能在Mac上跑”,还能以更高效率、更低内存占用的姿态流畅运行。 实测数据很说明问题:Cider在W8A8模式下的算子速度,比原生MLX模式提升了约1.4到1.9倍,具体表现取决于Batch Size。而在W4A8模式下,Cider比W8A8模式进一步降低了50%的权重内存占用,在高并发场景下还能与原生MLX的全精度W4A16方案在计算速度上相抗衡。 针对Qwen3-VL系列主流视觉语言模型,Cider在端到端预填充场景中展现出了显著的加速效果。在不同长度提示词下,相比原生MLX W8A16模式,Cider的W8A8 PC模式为Qwen3-VL-4B模型带来了约17%到22%的预填充速度提升;而在Qwen3-VL-2B模型上,这一提升更是跃升至约57%到61%。 此外,Cider还针对多图推理中的RoPE位置处理等技术难点进行了深度优化与非侵入性修复,大幅提升了复杂视觉任务的推理稳定性。考虑到视觉交互任务通常需要处理更长的上下文、更复杂的截图信息以及更密集的推理请求,这种量级上的性能跃升,对端侧VLM和GUI智能体来说,尤为关键。 Cider还在积极探索基于M4芯片的Apple Neural Engine与GPU之间的异构协同。过去,端侧大模型推理主要依赖GPU,Apple芯片中Neural Engine的潜力并没有被充分挖掘。Cider通过引入ANE+GPU异构张量并行机制,让两类计算单元协同作战,在部分测试场景下额外斩获了约3%到16%的加速效果。 **极简接入,让更多开源模型获得本地加速能力** Cider可以无缝兼容任意LLM模型,涵盖Qwen、Llama、Mistral以及Qwen3-VL等VLM模型,并内置了OpenAI兼容的VLM推理服务。企业和开发者无需重写模型结构,只需要极少量代码适配,就能便捷接入。 在预填充阶段,Cider支持启用W8A8 INT8 TensorOps,大幅拉升计算速度;而在解码阶段,框架会智能回退到原有权重路径,避免引入不必要的额外开销。无论是企业想在内部网络部署高度定制化的本地大语言模型,还是开发者想构建垂直领域的私有化AI应用矩阵,Cider都提供了一套坚实、可靠且极具延展性的底层推理基础设施。 **面向私有化AI,构建本地智能基础设施** 过去,大模型应用大多依赖云端算力。云端模型规模化能力强,但在企业级场景中,数据传输成本、隐私安全、调用费用和网络依赖,都是绕不开的问题。尤其是在涉及内部系统、核心业务流程、敏感界面截图和任务数据的场景下,端侧AI能让模型更靠近数据发生的地方,在降低传输风险的同时,提升响应速度和自主可控性。 Cider通过提升本地推理效率,让“数据不出设备”这个理念更接近真实可用的工程方案。当本地模型具备更好的推理性能,企业就有底气在更多场景中探索私有化AI——比如本地智能助手、企业内部Agent、离线任务执行、端侧多模态分析,以及高保密要求的自动化流程。 后续,明略科技还会开源完整的Mano-Action训练方法和相关工具,帮助企业和开发者基于自己的数据训练定制化的GUI智能体模型,或者在Mano-Action基础上开发新的训练技术。这相当于全面赋能企业定制与算法创新。 明略科技正把自身在智能体、多模态模型和企业级AI应用领域的深厚积淀,进一步向下延伸到底层推理框架与端侧模型研发的根基上。最终目标,是为广大开发者与企业用户提供一套完整、开箱即用的私有化人工智能基础设施,让AI真正走向私有化部署、低成本运行与可信落地。