首页

手游

资讯

专题

首页 > 教程攻略 > ai资讯 >教你用 Codex 从 0 到 1 写一个 SKILL

教你用 Codex 从 0 到 1 写一个 SKILL

来源：互联网时间：2026-06-13 13:35:50

用 Codex 从零制作一个 GIF 处理技能，把视频转 GIF 的繁琐过程自动化，一劳永逸。

核心内容：
1. 从解决具体问题入手，让 Codex 生成 FFmpeg 命令
2. 将一次性操作整理成可复用的自动化工作流
3. 如何封装成通用 skill 以处理各种视频剪辑需求

为了宣传 oh-my-prompt 2.0，直接用 Codex 从 0 写了个 GIF skill。

oh-my-prompt 2.0 刚刚发布，主要更新是两个功能：云端备份和 Prompt Agent。

Prompt Agent 这个功能用 GIF 展示效果最好，于是录了一段屏，准备剪一剪、加个速，转成动图放到文章里。

以前遇到视频处理，一般都是用 Remotion。

Remotion 确实强——视频比例转换、自动加字幕、复杂渲染都能搞定。但这次需求太简单，只是想把录屏转成 GIF，专门起个 Remotion 项目有点杀鸡用牛刀。

于是临时起了一个念头：能不能直接让 Codex 帮忙做一个专门处理视频转 GIF 的 skill？

不是写一条 FFmpeg 命令就完事，而是做成一个可以反复用的工作流。以后只要告诉它视频在哪、保留哪一段、速度调多少、输出多大，它就能先检查视频、再复述计划、等确认后生成 GIF。

这篇就记录一下从 0 到 1 做出这个 skill 的过程。如果你也经常有些重复的小任务——比如整理文件、处理图片、转格式、生成草稿、批量改名——完全可以照这个思路来操作。

1、先别急着写 skill，先把任务跑通一遍

一开始问 Codex 的问题很简单：

我想将视频进行剪辑，并变速，再转成 gif，可以使用什么工具？

Codex 给出的建议是 FFmpeg。这个选择很合理——视频裁剪、变速、拼接、转 GIF，这些能力 FFmpeg 都能做，而且免费，适合放在自动化流程里。

然后继续回答它的询问：

一个命令搞定，且免费。

Codex 给了一条 FFmpeg 命令，并解释了关键参数。到这里，其实已经能解决一次性问题了。但不想每次都重新拼命令，而且真实的视频处理往往不是只截取一段这么简单。

后面直接边看视频，把要剪辑的位置用语言描述发给 Codex：

8 秒之前不要，8 秒到 15 秒加速 4 倍，16 秒到 31 秒不要，32 秒到 40 秒加速 4 倍，41 秒到 53 秒不要，54 秒到 55 秒加速 2 倍，55 秒之后不要。

这句话翻译成命令其实挺麻烦——要拆片段、分别变速、拼接、转 GIF，还要检查输出大小。它生成了一个 4 秒多的 GIF，保留了三个片段，分别按 4 倍速、4 倍速、2 倍速处理。

到这里，本次的需求已经解决了——它帮我把视频转成了需要的 GIF。但如果不做成 skill，下次还得重复跟它沟通上面的对话。

2、把一次操作，整理成可复用流程

上面这一步很关键。

在创建 skill 之前，最好先让 Codex 完整做一遍真实任务。

不要一上来就说“帮我写一个视频转 GIF skill”——这样很容易写成空泛的说明。

更好的方式是先让它解决一次真实问题，把过程里的输入、判断、异常、确认、输出都暴露出来。跑通之后，再让它把这套流程沉淀成 skill。

任务跑通后，让 Codex 使用 Skill Creator，把上面的过程整理成一个 skill。要求不是直接创建，而是先确认。

这个习惯建议保留——因为 skill 不是一段普通 prompt，它会影响 Agent 后续怎么做。写得太粗，后面容易乱执行；写得太死，又不好用。

创建前最好先确认几个问题：这个 skill 叫什么？它在什么场景下触发？它需要用户提供什么信息？它什么时候应该追问？它什么时候可以执行？它执行前要不要确认？它执行后怎么验证结果？

它解决的不是所有视频剪辑问题，只解决一个很具体的场景——把视频里的片段裁出来，按需变速，拼接，然后转成 GIF。范围一定要收住。

很多朋友第一次写 skill，容易什么都想塞进去：视频转 GIF、加字幕、加封面、压缩、调色、去水印、转 MP4，全都写进去。看起来很强，实际很容易失控。

经验表明，

skill 越小越容易真正用起来

。只要把一件重复的小事做稳定，就已经很值了。

3、设计 skill 时，重点写清楚交互流程

这次 video-gif-editor 的核心，不是 FFmpeg 命令——FFmpeg 只是底层工具。

真正重要的是交互流程。

希望它按这个顺序工作：

1、先定位来源视频。如果没有指定视频，就询问视频在哪里。

2、读取视频基础信息。包括时长、分辨率、帧率、文件大小。

3、询问要怎么处理。可以用自然语言描述，比如裁掉开头 8 秒，后面整体 4 倍速，或者保留几段不同速度。

4、检查描述有没有问题。比如时间段是否超出视频长度，片段是否重叠，速度倍率是否合理。

5、复述即将执行的计划。包括保留哪些片段，每段速度多少，输出尺寸多少，预计 GIF 时长和大小。

6、等待明确确认。没确认，就不能执行。

7、生成 GIF 并校验结果。输出实际时长、尺寸、帧率、帧数、文件大小。

真正要写进 skill 的，是这些规则——让 Agent 知道什么时候问、什么时候判断、什么时候复述、什么时候执行。

这也是很多 skill 好不好用的分界线。差一点的 skill，只写怎么做。好一点的 skill，会写清楚怎么跟用户一起做。尤其是视频处理这种任务，执行一次可能要等几十秒甚至几分钟——没确认直接跑，错了就是在浪费时间。所以在 skill 里明确要求：用户确认前不能执行。这个规则很简单，但很有用。

4、让 Codex 创建文件，并自己验证

确认流程之后，Codex 创建了 video-gif-editor skill。它包含几个东西：SKILL.md 用来描述触发场景和工作流程，scripts/render_gif.py 用来真正调用 FFmpeg 生成 GIF。

5、用新 skill 处理真实素材

这一步也建议照做——不要只看 Codex 说创建完成就收工。一定要让它用一个真实素材跑一下。skill 这种东西，如果只写不跑，很容易看起来很完整，但真正调用时才发现路径不对、依赖没装、参数解析有问题。能跑通，才算完成。

skill 做好之后，就拿它测试处理这次 oh-my-prompt 2.0 的录屏。

源视频是 PixPin_2026-05-26_10-20-06.mp4。video-gif-editor 先读取了视频信息。因为刚刚创建 skill 的过程中，其实已经帮我把 GIF 做出来了，所以这里测试给它的处理要求是随便编的：

全部加速 4 倍，裁剪掉末尾 2 秒。

它解析出的计划是：保留 0 到 124.45 秒，整体加速 4 倍，预计 GIF 时长约 31.11 秒。然后给出了三个输出规格。

选择了 small——因为这个 GIF 主要是发文章和聊天记录，不需要特别高清，体积小一点更好传播。然后 skill 再次复述即将执行的参数，并要求明确回复确认执行。

确认之后，开始生成 GIF。

到这里，这个 skill 就完成了它的第一次真实工作。从需求上看，它只是帮忙做了一个 GIF。但从工作流上看，它把一个以后会反复出现的小任务固定下来了。下次再录一个产品演示，不需要重新想用什么工具，只要把视频丢给 video-gif-editor，然后用自然语言描述想怎么剪就行。

这就是 Codex 做 skill 最实用的地方——它不是只能帮你写大型项目，也适合把那些反复出现、步骤不复杂但容易出错的小任务，变成稳定工具。

可以这样做：

先让 Codex 帮你手动完成一次真实任务；再让它总结流程，找出固定步骤和容易出错的地方；然后用 Skill Creator 把流程写成 skill；接着让它创建必要脚本；再用真实素材验证。这就是一条很简单的 skill 创建路径。

再顺便介绍一下 oh-my-prompt 2.0。这次更新主要是两个功能：云端备份和 Prompt Agent。

云端备份解决的是 prompt 资产安全问题。很多人用 oh-my-prompt 不是只存几条提示词，而是按项目、角色、平台、风格长期积累。积累到一定程度后，这些 prompt 就不是临时文本了，而是素材资产。所以 2.0 加了云端备份，换电脑、重装浏览器、同步 prompt 都会更稳。

Prompt Agent 则是这次 GIF 展示的重点。

以前 oh-my-prompt 更像是一个 prompt 管理器——保存一段 prompt，要用时一键插入。但很多 prompt 其实不是一段固定文本，而是一个任务入口。比如要做产品海报，它应该继续问产品是什么、卖点是什么、风格是什么、面向谁。比如要做角色一致性，它应该帮忙补全角色设定、生成参考表、测试场景、沉淀模板。

Prompt Agent 想做的就是这件事——把静态 prompt，变成一个可以继续追问和推进任务的小助手。这也是为什么需要一个 GIF，因为这个功能光用截图不好说明，动起来更直观。

官网是 oh-my-prompt.com
GitHub 是 github.com/wk240/oh-my-prompt

如果已经在用，可以更新到 2.0 试试。如果还没用过，也可以从这版开始看看。