字节跳动联合港科大发布MMProLong:长文档LMM训练问答对效率远超OCR转录
来源:互联网
时间:2026-05-28 16:32:31
5月24日,字节跳动Seed团队与香港科技大学联合发布了一项关于多模态大语言模型长文档训练的新研究。基于阿里巴巴开源的Qwen2.5-VL,团队构建了一个名为
MMProLong
研究直指当前LMM训练的一个核心痛点:在处理多模态长文档时,采用针对性的
问答对训练
字符识别转录
正是基于这一优化策略,MMProLong在仅
128,000个Token
256,000甚至512,000个Token
这项研究为当下的大模型行业提供了另一条清晰的演进路径。它证明,实现长上下文能力的跨越式提升,未必一定要像DeepSeek那样,从视觉信息压缩和架构重排序入手。通过