首页 > 教程攻略 > ai资讯 >教你用 Codex 从 0 到 1 写一个 SKILL

教你用 Codex 从 0 到 1 写一个 SKILL

来源:互联网 时间:2026-06-13 13:35:50

用 Codex 从零制作一个 GIF 处理技能,把视频转 GIF 的繁琐过程自动化,一劳永逸。

核心内容:
1. 从解决具体问题入手,让 Codex 生成 FFmpeg 命令
2. 将一次性操作整理成可复用的自动化工作流
3. 如何封装成通用 skill 以处理各种视频剪辑需求

为了宣传 oh-my-prompt 2.0,直接用 Codex 从 0 写了个 GIF skill。

oh-my-prompt 2.0 刚刚发布,主要更新是两个功能:云端备份和 Prompt Agent。

Prompt Agent 这个功能用 GIF 展示效果最好,于是录了一段屏,准备剪一剪、加个速,转成动图放到文章里。

以前遇到视频处理,一般都是用 Remotion。

Remotion 确实强——视频比例转换、自动加字幕、复杂渲染都能搞定。但这次需求太简单,只是想把录屏转成 GIF,专门起个 Remotion 项目有点杀鸡用牛刀。

于是临时起了一个念头:能不能直接让 Codex 帮忙做一个专门处理视频转 GIF 的 skill?

不是写一条 FFmpeg 命令就完事,而是做成一个可以反复用的工作流。以后只要告诉它视频在哪、保留哪一段、速度调多少、输出多大,它就能先检查视频、再复述计划、等确认后生成 GIF。

这篇就记录一下从 0 到 1 做出这个 skill 的过程。如果你也经常有些重复的小任务——比如整理文件、处理图片、转格式、生成草稿、批量改名——完全可以照这个思路来操作。

1、先别急着写 skill,先把任务跑通一遍

一开始问 Codex 的问题很简单:

我想将视频进行剪辑,并变速,再转成 gif,可以使用什么工具?

Codex 给出的建议是 FFmpeg。这个选择很合理——视频裁剪、变速、拼接、转 GIF,这些能力 FFmpeg 都能做,而且免费,适合放在自动化流程里。

然后继续回答它的询问:

一个命令搞定,且免费。

Codex 给了一条 FFmpeg 命令,并解释了关键参数。到这里,其实已经能解决一次性问题了。但不想每次都重新拼命令,而且真实的视频处理往往不是只截取一段这么简单。

后面直接边看视频,把要剪辑的位置用语言描述发给 Codex:

8 秒之前不要,8 秒到 15 秒加速 4 倍,16 秒到 31 秒不要,32 秒到 40 秒加速 4 倍,41 秒到 53 秒不要,54 秒到 55 秒加速 2 倍,55 秒之后不要。

这句话翻译成命令其实挺麻烦——要拆片段、分别变速、拼接、转 GIF,还要检查输出大小。它生成了一个 4 秒多的 GIF,保留了三个片段,分别按 4 倍速、4 倍速、2 倍速处理。

到这里,本次的需求已经解决了——它帮我把视频转成了需要的 GIF。但如果不做成 skill,下次还得重复跟它沟通上面的对话。

2、把一次操作,整理成可复用流程

上面这一步很关键。

在创建 skill 之前,最好先让 Codex 完整做一遍真实任务。

不要一上来就说“帮我写一个视频转 GIF skill”——这样很容易写成空泛的说明。

更好的方式是先让它解决一次真实问题,把过程里的输入、判断、异常、确认、输出都暴露出来。跑通之后,再让它把这套流程沉淀成 skill。

任务跑通后,让 Codex 使用 Skill Creator,把上面的过程整理成一个 skill。要求不是直接创建,而是先确认。

这个习惯建议保留——因为 skill 不是一段普通 prompt,它会影响 Agent 后续怎么做。写得太粗,后面容易乱执行;写得太死,又不好用。

创建前最好先确认几个问题:这个 skill 叫什么?它在什么场景下触发?它需要用户提供什么信息?它什么时候应该追问?它什么时候可以执行?它执行前要不要确认?它执行后怎么验证结果?

它解决的不是所有视频剪辑问题,只解决一个很具体的场景——把视频里的片段裁出来,按需变速,拼接,然后转成 GIF。范围一定要收住。

很多朋友第一次写 skill,容易什么都想塞进去:视频转 GIF、加字幕、加封面、压缩、调色、去水印、转 MP4,全都写进去。看起来很强,实际很容易失控。

经验表明,

skill 越小越容易真正用起来

。只要把一件重复的小事做稳定,就已经很值了。

3、设计 skill 时,重点写清楚交互流程

这次 video-gif-editor 的核心,不是 FFmpeg 命令——FFmpeg 只是底层工具。

真正重要的是交互流程。

希望它按这个顺序工作:

1、先定位来源视频。如果没有指定视频,就询问视频在哪里。

2、读取视频基础信息。包括时长、分辨率、帧率、文件大小。

3、询问要怎么处理。可以用自然语言描述,比如裁掉开头 8 秒,后面整体 4 倍速,或者保留几段不同速度。

4、检查描述有没有问题。比如时间段是否超出视频长度,片段是否重叠,速度倍率是否合理。

5、复述即将执行的计划。包括保留哪些片段,每段速度多少,输出尺寸多少,预计 GIF 时长和大小。

6、等待明确确认。没确认,就不能执行。

7、生成 GIF 并校验结果。输出实际时长、尺寸、帧率、帧数、文件大小。

真正要写进 skill 的,是这些规则——让 Agent 知道什么时候问、什么时候判断、什么时候复述、什么时候执行。

这也是很多 skill 好不好用的分界线。差一点的 skill,只写怎么做。好一点的 skill,会写清楚怎么跟用户一起做。尤其是视频处理这种任务,执行一次可能要等几十秒甚至几分钟——没确认直接跑,错了就是在浪费时间。所以在 skill 里明确要求:用户确认前不能执行。这个规则很简单,但很有用。

4、让 Codex 创建文件,并自己验证

确认流程之后,Codex 创建了 video-gif-editor skill。它包含几个东西:SKILL.md 用来描述触发场景和工作流程,scripts/render_gif.py 用来真正调用 FFmpeg 生成 GIF。

5、用新 skill 处理真实素材

这一步也建议照做——不要只看 Codex 说创建完成就收工。一定要让它用一个真实素材跑一下。skill 这种东西,如果只写不跑,很容易看起来很完整,但真正调用时才发现路径不对、依赖没装、参数解析有问题。能跑通,才算完成。

skill 做好之后,就拿它测试处理这次 oh-my-prompt 2.0 的录屏。

源视频是 PixPin_2026-05-26_10-20-06.mp4video-gif-editor 先读取了视频信息。因为刚刚创建 skill 的过程中,其实已经帮我把 GIF 做出来了,所以这里测试给它的处理要求是随便编的:

全部加速 4 倍,裁剪掉末尾 2 秒。

它解析出的计划是:保留 0 到 124.45 秒,整体加速 4 倍,预计 GIF 时长约 31.11 秒。然后给出了三个输出规格。

选择了 small——因为这个 GIF 主要是发文章和聊天记录,不需要特别高清,体积小一点更好传播。然后 skill 再次复述即将执行的参数,并要求明确回复确认执行。

确认之后,开始生成 GIF。

到这里,这个 skill 就完成了它的第一次真实工作。从需求上看,它只是帮忙做了一个 GIF。但从工作流上看,它把一个以后会反复出现的小任务固定下来了。下次再录一个产品演示,不需要重新想用什么工具,只要把视频丢给 video-gif-editor,然后用自然语言描述想怎么剪就行。

这就是 Codex 做 skill 最实用的地方——它不是只能帮你写大型项目,也适合把那些反复出现、步骤不复杂但容易出错的小任务,变成稳定工具。

可以这样做:

先让 Codex 帮你手动完成一次真实任务;再让它总结流程,找出固定步骤和容易出错的地方;然后用 Skill Creator 把流程写成 skill;接着让它创建必要脚本;再用真实素材验证。这就是一条很简单的 skill 创建路径。

再顺便介绍一下 oh-my-prompt 2.0。这次更新主要是两个功能:云端备份和 Prompt Agent。

云端备份解决的是 prompt 资产安全问题。很多人用 oh-my-prompt 不是只存几条提示词,而是按项目、角色、平台、风格长期积累。积累到一定程度后,这些 prompt 就不是临时文本了,而是素材资产。所以 2.0 加了云端备份,换电脑、重装浏览器、同步 prompt 都会更稳。

Prompt Agent 则是这次 GIF 展示的重点。

以前 oh-my-prompt 更像是一个 prompt 管理器——保存一段 prompt,要用时一键插入。但很多 prompt 其实不是一段固定文本,而是一个任务入口。比如要做产品海报,它应该继续问产品是什么、卖点是什么、风格是什么、面向谁。比如要做角色一致性,它应该帮忙补全角色设定、生成参考表、测试场景、沉淀模板。

Prompt Agent 想做的就是这件事——把静态 prompt,变成一个可以继续追问和推进任务的小助手。这也是为什么需要一个 GIF,因为这个功能光用截图不好说明,动起来更直观。

官网是 oh-my-prompt.com
GitHub 是 github.com/wk240/oh-my-prompt

如果已经在用,可以更新到 2.0 试试。如果还没用过,也可以从这版开始看看。

相关下载