我第一个开源AI小产品-video2blog即将正式发布
前言
这个项目的起点其实特别简单——就是为了解决我自己的一个小困扰。不管它能不能帮到你,或者对你到底有没有用,至少你能看看我开发一个小产品的完整过程。

几个月来,我习惯靠 YouTube 补充知识,也用它打发早晚通勤那漫长的两小时。单纯刷短视频实在有点浪费,所以把目光转向了技术视频。但问题来了:看到有用的信息,我会截图,方便回头翻找关键词。问题是,截图只记录下当时瞬间的内容,前后语境却经常断掉。前后哪哪儿有关联,当时偏偏没截到,再想找回上下文,就只能重新翻看整段视频。这种情况反复出现,真的非常浪费时间。于是,video2blog 就这么诞生了。
video2blog 的开发历程
简单说,它的核心能力是:通过视频链接,结合 AI 把整段视频转换成一篇图文笔记或者博客。图文最大的好处,就是方便回看——就像小时候整理错题笔记一样直观。
从 3 月底左右,我开始琢磨这个小产品。不过当时的思路还不够清晰,脑子里只有一个初步的轮廓。代码其实从那时候就开始写了,因为要做一个 PC 客户端,很多技术我之前没用过,只能花时间去研究。说实话,能解决自己的痛点,心里还是挺有劲儿的。
正好 4 月初,我请了三天假,连着清明出去玩了一趟。回来之后状态特别好,那一周几乎是疯狂码代码、查 Bug,慢慢理清了上图中那条自我感觉还算清晰的思路。目前,整体流程基本跑通了,但很多功能还远未完善——比如通过 Whisper 把视频转字幕,已经在 Python 中实验成功,但还没集成到项目里;再比如把字幕转成长文、对接 AI 的环节,也还没真正落地。这些暂时可以借助其他工具临时凑合用,所以就先搁置,集中精力解决更紧迫的问题。
一周时间真的太短了,更别说平时还有其他项目要忙。只能在上班间隙抽空查查问题、优化思路。更多时候是在琢磨和权衡,有几天甚至不太想上班了。每周实现的功能不算多,但基本能按着自己的计划往前走。有时候一天的问题解决不了,心里就会发愁——进度会不会赶不上?第二天一定得抓紧。
之前 3 月底我也记过一笔:争取在 5 月底出一个相对完整的版本。提前给自己设定好目标和计划,就算最后没完成、没达到预期,复盘的时候也能找到问题,甚至总结出一些经验教训。
现状
从这张图就能很直观地看明白整个小产品的流程。现在回看,逻辑很清晰,思路也朴素直接。当然,市面上肯定有更好更优雅的使用模式,但对我自己来说,眼下这个方案在现阶段是合适的选择。
目前,小产品可以借助外部 AI 工具把流程走通。比如用 Whisper 模型做语音转文字,或直接做翻译;如果视频自带英文字幕,也可以通过 AI 工具翻译成中文。翻译成中文之后,再用 AI 工具把它变成一篇文章,或者叫笔记。转化成文章时,对 prompt 有特定要求——需要加入目录,并在目录上标注视频的时间区间。这样一来,就能根据时间区间去抓取关键画面、去重、去选择合适的配图,插入到文章里。
写在最后
现在预发布这个小产品,也算是给这一个多月的阶段性总结画个句号。对我自己来说,这是一次小小的挑战——之前从来没试过正式发布一个属于自己的产品,这次算第一次尝试。很多时候,有了想法就去做做看,中间肯定会有很多困难。但你一天天去拆解、去排解,那些小困难也就慢慢不算什么了。产品可能并不完美,但至少,我自己已经能慢慢用起来了。
目前支持 Windows 和 Mac 系统,在我自己电脑上安装运行都没有问题。当然,第一次尝试做跨平台客户端,可能会有兼容性问题,还需要持续打磨。争取在 5 月底正式发布第一个完整版本。如果这个产品思路对你有点启发,你完全可以快速复刻一个属于自己的版本。