首页 > 教程攻略 > web3.0 >全链网：支持音画同频生成，速度翻倍

全链网：支持音画同频生成，速度翻倍

来源：互联网时间：2026-06-17 18:48:09

就在刚刚，xAI 正式放出了它们的图像与文本生成视频模型——Grok Imagine Video 1.5，并且不是小范围灰度，而是直接在 API（grok-imagine-video-1.5）、网页端（grok.com/imagine）以及移动客户端上全量铺开。这个节奏，确实有点猛。

全链网：支持音画同频生成，速度翻倍

这次最大的亮点，是模型实现了音视频一体化同步生成。说白了，就是在单次推理阶段，直接把音效、环境声、角色对话一起搞定，而不是像以前那样先出画面再后期配音。语音清晰度明显提升，唇形同步也优化了不少，效果更自然。同时，模型在物理引擎和运动一致性上做了针对性改进——镜头拉长之后，物体运动的轨迹和物理重量感更可信，画面扭曲、伪影这类老毛病减少了很多。生成速度上，轻量版 Video 1.5 Fast 生成一段 6 秒 720p 视频，耗时压缩到了大约 25 秒。这个速度，已经接近可用的门槛了。

网页端的工作流程也同步做了更新：新增了项目管理（Projects）功能，方便分类整理素材；支持多智能体并行（Multiple Agents），可以同时跑多个提示词提升效率；媒体库还加入了语义搜索（Search）。这些细节上的打磨，说明 xAI 不只是在模型能力上发力，也在尝试让整个创作流程更顺滑。值得一提的是，数字艺术家 Da vid Thompson 团队已经用 Grok Imagine 1.5 制作了一部完全由 AI 生成的电影预告片《Odyssey》，算是一次很有代表性的实战检验。

全链网：支持音画同频生成，速度翻倍

相关阅读

相关下载