首页 > 教程攻略 > web3.0 >全链网:支持音画同频生成,速度翻倍

全链网:支持音画同频生成,速度翻倍

来源:互联网 时间:2026-06-17 18:48:09

就在刚刚,xAI 正式放出了它们的图像与文本生成视频模型——Grok Imagine Video 1.5,并且不是小范围灰度,而是直接在 API(grok-imagine-video-1.5)、网页端(grok.com/imagine)以及移动客户端上全量铺开。这个节奏,确实有点猛。

全链网:支持音画同频生成,速度翻倍

这次最大的亮点,是模型实现了音视频一体化同步生成。说白了,就是在单次推理阶段,直接把音效、环境声、角色对话一起搞定,而不是像以前那样先出画面再后期配音。语音清晰度明显提升,唇形同步也优化了不少,效果更自然。同时,模型在物理引擎和运动一致性上做了针对性改进——镜头拉长之后,物体运动的轨迹和物理重量感更可信,画面扭曲、伪影这类老毛病减少了很多。生成速度上,轻量版 Video 1.5 Fast 生成一段 6 秒 720p 视频,耗时压缩到了大约 25 秒。这个速度,已经接近可用的门槛了。

网页端的工作流程也同步做了更新:新增了项目管理(Projects)功能,方便分类整理素材;支持多智能体并行(Multiple Agents),可以同时跑多个提示词提升效率;媒体库还加入了语义搜索(Search)。这些细节上的打磨,说明 xAI 不只是在模型能力上发力,也在尝试让整个创作流程更顺滑。值得一提的是,数字艺术家 Da vid Thompson 团队已经用 Grok Imagine 1.5 制作了一部完全由 AI 生成的电影预告片《Odyssey》,算是一次很有代表性的实战检验。