首页 > 教程攻略 > ai资讯 >技术攻坚！广和通突破端侧LLM长上下文限制

技术攻坚！广和通突破端侧LLM长上下文限制

来源：互联网时间：2026-06-14 13:57:06

搞定复杂任务，是AI能力进化的分水岭。但这有个不可回避的前提：AI得能“理解得更完整”。无论是分析一份几十页的专业报告，还是进行持续多轮的深度对话，又或者是一段冗长的代码审查，大模型能够参考的信息越完整，它做出的判断和执行才会越可靠、越得心应手。

反过来看，信息窗口的长度，直接左右着任务的实际效果。当上下文捉襟见肘时，模型的“记忆”就会迅速衰减，输出很容易停留在对文本片段的简单总结，或者基于局部信息的判断，很难支撑起那些环环相扣的复杂业务逻辑。

这个难题，放在云端或许还好办，毕竟服务器的算力和海量显存能持续“兜底”。可一旦回到终端设备——无论是手机、座舱还是各类IoT硬件——环境就严峻多了。内存、功耗、成本、散热的限制无处不在。随着输入信息的增多，模型推理时用于保存中间状态的KV缓存，会像吹气球一样迅速膨胀，直接导致响应变慢、资源吃紧，甚至影响运行稳定。

说到底，如何让设备在有限的资源“口袋”里，持续、稳定、低成本地处理海量信息，这才是端侧长文本技术真正的价值所在。

有限缓存，跑出更强理解力

广和通AI研究院最近带来的FiboCache，就是冲着这个核心痛点来的。这套自研的端侧长文本缓存管理技术，核心目标很明确：在给定的缓存条件下，让终端设备能“消化”更大规模的信息输入。

技术攻坚！广和通突破端侧LLM长上下文限制

技术设计思路很清晰，专门针对端侧“静态图推理”的运行环境。它能在推理过程中，对历史信息进行动态而高效的管理，自动识别并保留那些与当前任务最相关的关键信息，同时主动“瘦身”，清理掉缓存中关联度不高的低价值信息。这就好比一个聪明的图书管理员，在不断涌入的新书中，总能精准地保留最重要的参考书，而不是让书架无限制地杂乱堆积。

效果是实打实的。在实际部署中，FiboCache能做到只用大约4K级别的缓存占用，就去稳定支撑16K到32K级别的上下文推理。这意味着资源占用的显著降低，而大模型的生成质量依然保持稳定。

更关键的是，这项技术并不绑定某个特定模型或芯片平台。它作为广和通Fibocom AI Stack使能平台的一项通用能力，可以灵活地赋能多种多样的终端设备，这让它的普适性大大增强。

真实场景落地，让端侧AI真正处理“超大信息量”

技术突破的价值，最终要落到场景里看。基于FiboCache的能力，广和通AI Stack的解决方案就能覆盖更多、更复杂的信息处理需求。

比方说AI会议场景。搭载该技术的智能会议机，可以在本地直接处理超长会议录音转写的文本，完成会议纪要生成和要点总结，帮助用户从海量信息中快速提炼洞见。整个过程数据不“离家”，安全性更高。

再看需要“记住过去”的交互场景。无论是AI陪伴机器人、智能座舱语音助手，还是家用的AI管家，终端设备能够更长久地记住历史对话和用户偏好，让每次交流都更连贯，也能让个性化角色的设定更持久稳定，不会“聊着聊着就忘了你是谁”。

在像广和通龙虾智算盒这类面向行业应用的端侧AI设备上，FiboCache能支撑起更复杂的长文档摘要、深度知识问答、多轮任务规划等一系列操作，帮助企业和行业客户在靠近数据源头的边缘侧，部署和执行更复杂的AI应用。

延伸到工业和IoT领域，边缘设备可以利用这项能力，在本地分析处理长达数周甚至数月的设备运行日志、连续性的巡检记录和多源告警信息，自主完成故障排查根因分析、异常精准定位甚至是预测性维护，极大提升现场响应和决策的效率。

底层能力突破，夯实端侧AI技术底座

FiboCache的这次突破，意义在于它进一步补强了广和通在端侧AI推理技术栈中的关键一环。它解决的缓存管理问题，恰恰是大模型在终端深度应用时必须跨过的一道槛，为更复杂、更智慧的AI应用铺平了道路。

接下来，围绕前沿模型的端侧适配、超长文本的有效处理等核心方向，广和通AI研究院的技术探索只会持续深入。目标只有一个：加速大模型的强大能力，从云端“下沉”到每一台终端设备、每一个真实业务场景之中，实实在在地推动千行百业，迈向那个万物皆可感知、皆可交互的智能互联时代。

技术攻坚！广和通突破端侧LLM长上下文限制

有限缓存，跑出更强理解力

真实场景落地，让端侧AI真正处理“超大信息量”

底层能力突破，夯实端侧AI技术底座

相关阅读

相关下载