首页 > 教程攻略 > ai资讯 >技术攻坚!广和通突破端侧LLM长上下文限制

技术攻坚!广和通突破端侧LLM长上下文限制

来源:互联网 时间:2026-06-14 13:57:06

搞定复杂任务,是AI能力进化的分水岭。但这有个不可回避的前提:AI得能“理解得更完整”。无论是分析一份几十页的专业报告,还是进行持续多轮的深度对话,又或者是一段冗长的代码审查,大模型能够参考的信息越完整,它做出的判断和执行才会越可靠、越得心应手。

反过来看,信息窗口的长度,直接左右着任务的实际效果。当上下文捉襟见肘时,模型的“记忆”就会迅速衰减,输出很容易停留在对文本片段的简单总结,或者基于局部信息的判断,很难支撑起那些环环相扣的复杂业务逻辑。

这个难题,放在云端或许还好办,毕竟服务器的算力和海量显存能持续“兜底”。可一旦回到终端设备——无论是手机、座舱还是各类IoT硬件——环境就严峻多了。内存、功耗、成本、散热的限制无处不在。随着输入信息的增多,模型推理时用于保存中间状态的KV缓存,会像吹气球一样迅速膨胀,直接导致响应变慢、资源吃紧,甚至影响运行稳定。

说到底,如何让设备在有限的资源“口袋”里,持续、稳定、低成本地处理海量信息,这才是端侧长文本技术真正的价值所在。

有限缓存,跑出更强理解力

广和通AI研究院最近带来的FiboCache,就是冲着这个核心痛点来的。这套自研的端侧长文本缓存管理技术,核心目标很明确:在给定的缓存条件下,让终端设备能“消化”更大规模的信息输入。

技术攻坚!广和通突破端侧LLM长上下文限制

技术设计思路很清晰,专门针对端侧“静态图推理”的运行环境。它能在推理过程中,对历史信息进行动态而高效的管理,自动识别并保留那些与当前任务最相关的关键信息,同时主动“瘦身”,清理掉缓存中关联度不高的低价值信息。这就好比一个聪明的图书管理员,在不断涌入的新书中,总能精准地保留最重要的参考书,而不是让书架无限制地杂乱堆积。

效果是实打实的。在实际部署中,FiboCache能做到只用大约4K级别的缓存占用,就去稳定支撑16K到32K级别的上下文推理。这意味着资源占用的显著降低,而大模型的生成质量依然保持稳定。

更关键的是,这项技术并不绑定某个特定模型或芯片平台。它作为广和通Fibocom AI Stack使能平台的一项通用能力,可以灵活地赋能多种多样的终端设备,这让它的普适性大大增强。

真实场景落地,让端侧AI真正处理“超大信息量”

技术突破的价值,最终要落到场景里看。基于FiboCache的能力,广和通AI Stack的解决方案就能覆盖更多、更复杂的信息处理需求。

比方说AI会议场景。搭载该技术的智能会议机,可以在本地直接处理超长会议录音转写的文本,完成会议纪要生成和要点总结,帮助用户从海量信息中快速提炼洞见。整个过程数据不“离家”,安全性更高。

再看需要“记住过去”的交互场景。无论是AI陪伴机器人、智能座舱语音助手,还是家用的AI管家,终端设备能够更长久地记住历史对话和用户偏好,让每次交流都更连贯,也能让个性化角色的设定更持久稳定,不会“聊着聊着就忘了你是谁”。

在像广和通龙虾智算盒这类面向行业应用的端侧AI设备上,FiboCache能支撑起更复杂的长文档摘要、深度知识问答、多轮任务规划等一系列操作,帮助企业和行业客户在靠近数据源头的边缘侧,部署和执行更复杂的AI应用。

延伸到工业和IoT领域,边缘设备可以利用这项能力,在本地分析处理长达数周甚至数月的设备运行日志、连续性的巡检记录和多源告警信息,自主完成故障排查根因分析、异常精准定位甚至是预测性维护,极大提升现场响应和决策的效率。

底层能力突破,夯实端侧AI技术底座

FiboCache的这次突破,意义在于它进一步补强了广和通在端侧AI推理技术栈中的关键一环。它解决的缓存管理问题,恰恰是大模型在终端深度应用时必须跨过的一道槛,为更复杂、更智慧的AI应用铺平了道路。

接下来,围绕前沿模型的端侧适配、超长文本的有效处理等核心方向,广和通AI研究院的技术探索只会持续深入。目标只有一个:加速大模型的强大能力,从云端“下沉”到每一台终端设备、每一个真实业务场景之中,实实在在地推动千行百业,迈向那个万物皆可感知、皆可交互的智能互联时代。