【老司机必备】保姆级字幕翻译教程,从此告别生肉,卡卡字幕助手教程|ai字幕|ai翻译|DeepSeek API|DeepSeek教程|Claude 教程

Youtube视频版在最下方



在github上闲逛的时候,我无意间发现了一个给无字幕视频添加字幕并翻译成中文的软件,一段时间的使用之后,感觉对于我学习外语非常有帮助,看日语视频感觉理解更加深刻了。


今天我就把它分享给大家,它就是卡卡字幕助手,是一名中国在校大学生开发的AI字幕神器,目前在github上已经收获了7000+的小星星,这意味着卡卡字幕助手是一个还不错的项目。
你是否曾因为外语视频没有字幕而错过精彩内容?或者为了学习外语,却苦于没有合适的工具?接下来我将从软件下载与安装,字幕样式的设置,大语言模型配置,本地视频添加翻译字幕,卡卡字幕助手官方API平台配置这几方面来介绍一下这个软件。


1、软件下载与安装



首先打开这个项目的github主页,在右侧的侧边栏,有个release,可以看到目前最新的版本是V1.3.3,点击进去,就来到了下载页面,我们选择win64这个exe文件下载即可,这个软件非常的轻量化,仅有57.1Mb,对软件的源码感兴趣,想研究一下的,也可以下载这个source code,也就源代码。不方便到github下载软件的朋友,我会把下载好的软件放到我的夸克网盘,然后链接放在视频的说明区。

下载完成后,我们双击打开,这时候它会提示你系统风险,不用担心,我们呢点击更多信息,然后呢点击仍要运行,设置语言,这里我默认简体中文,点击确定,还是我一贯的建议,不要安装在C盘,我们将它安装到d盘,然后点击下一步,桌面快捷方式这一项,可选可不选,安装软件的时候一直不选,桌面就会一直保持整洁,否则就会像我的桌面一样,乱七八糟了。最后点击完成,这里显示了这个最新的版本相对上一个版本的修改。我们可以看到,软件的界面非常简洁,一共有主页也就是主工作区,批量处理,字幕样式设置,软件设置这么几个模块。

2、字幕样式设置



鼠标先点击这个T的图标,就进入到字幕设置的菜单,这里可以设置字幕的字体,颜色,设置之后,在这边会同步显示设置的效果,首先字体,我建议大家还是要使用免费可商用的字体,特别是有些要用来做自媒体的朋友。这里插一句,推荐一个我常用的字体网站给大家,

100front,网址我也会放在视频的说明区,这是一个免费可商用字体收集网站,收集了超级多的免费可商用的字体,汉语,英语,韩语,日语字体统统都有,选择喜欢的,点击进去,我们可以看到,这个网站是提供了字体的打包下载的,也可以单独下载某一个字体,在这里输入我们的文字,可以设置字体颜色,背景颜色,字号,然后点击预览,就可以看到字体的显示效果。页面的最下方,有个夸克网盘的链接,我们点击下载保存到电脑上就得到一个压缩包,解压后,是一个ttf的字体文件,ttf这个格式是应用最广的字体文件格式,微软,苹果的系统都支持。然后点击右键,安装字体,这个字体就被安装到了我们的电脑上。我们回到卡卡翻译助手,关闭后重新打开软件,我们刚才安装的字体就显示在这里了,选择我们刚刚安装的字体,然后设置一个自己喜欢的颜色,这样,我们就设置好了字幕样式。


3、大语言模型配置



点击小齿轮,进入到设置菜单,首先要配置的就是转录模型,它的主要作用是把视频中的语音转化成原声字幕。我们可以看到,一共有5个选项,从项目的github主页介绍里可以看到,B接口和J接口,仅支持中文和英文,whisper和fastwhisper支持主流的99种语言,比如中日韩英等等,官方推荐使用fastwhisper,支持CUDA,速度更快,转录准确。时间戳也非常准确,这里我们就选择fastwhisper模型。
接下来是大语言模型的设置,大语言模型在整个软件处理流程中负责字幕断句、字幕优化、以及字幕翻译,可选项也非常多,openai,硅基流动,deepseek官方api,gemini,cloude等都可以使用,你可以看到,最下方是官方的内置公益模型,当下就不推荐使用了,非常的不稳定。公益模型使用的是gpt 4o mini模型,翻译质量也比较一般。它唯一的优点就是便宜。目前翻译质量最好的是clude sonnet,deepseek翻译质量也不错,和gemini同处第二梯队。

现在我就给大家演示一下,如何把硅基流动的付费deepseek api配置到卡卡字幕助手中,我们先在下拉框中选择硅基流动,然后打开硅基流动的主页,然后登陆自己的账号,如果是第一打开这个网站,需要先注册一下,

使用我评论区的老马视角专属链接注册,可以获得2000W token的免费赠送,相应的我也会获取部分token的奖励,这也是对我的频道的支持,感谢。注册完以后,我们在这个位置可以看到对应的奖励,这个只能以api的形式使用,不能提现。点击左侧的API密钥,然后新建API密钥,描述这里随意填写,我们自己能够分辨即可,比如就填写卡卡字幕助手,然后把密钥复制一下,回到卡卡助手页面,黏贴到这个位置,base url是软件默认配置好的,模型,一共有80多个可选,我们选deepseek v3,然后检查链接,出现这个提示,表示大语言模型已经配置成功了。

4、本地视频翻译

这是一段日语的视频,只有语音,没有字幕,现在我就演示给这段视频添加字幕的完整过程。直接把视频拖入这个窗口,或者这点后边的按钮,选择要添加字幕的视频,然后点击这个开始图标,会弹出一个源语言设置窗口,支持的语言非常的多,英语,德语,法语,日语,等等,常见的语言都是支持的,我们选择日语,

如果是第一次使用,我们还需要把whisper程序以及语音识别模型下载到本地,可以根据自己的硬件配置来选择,官方推荐是large-v2的效果最好,如果想把中文视频添加英文或者其他语言的字幕,最低要选择medium模型。作者应该是做了国内的镜像,模型下载速度非常快,也不需要特殊的上网方式。

下载完成后,就自动来到语音转录界面,等待语音转录完成,这个速度和自己的电脑配置相关,因为是本地运行的whisper模型来处理的,一分钟的视频,大概20多秒,就完成了转录,可以看到,在视频同文件夹中,生成了一个srt的文件,我们用文本编辑器打开,可以看到是带有时间戳的日语字幕,接着软件跳到了字幕优化与翻译窗口,可以看有字幕优化,这里主要做的是断句,上下文的语境理解以及最后再翻译成中文,翻译的速度非常快。最后一步就是视频合成了,这里我建议不要勾选软字幕,因为有些播放器是无法支持软字幕的,然后就等待合成视频,一分钟的视频,大概要两三分钟的时间,才能合成好。现在合成了字幕的视频已经生成了,带卡卡开头的这个就是新生成的视频,我和上期使用potplayer调用potplayer chatgpt translate生成的字幕信息做了对比,卡卡翻译助手确实表现更加出色,感兴趣的朋友,可以拿我上一期的视频做个对比,它的优势就在于音频转录后的字幕通过大模型做了字幕断句,字幕优化,上下文语境的结合非常好。并且费用非常的便宜,翻译这条一分钟的视频,才花费了2分钱。
在本地视频翻译结束后,可以说:“有了卡卡字幕助手,从此告别听不懂的烦恼,看外语视频就像看中文一样轻松!

5、卡卡字幕助手官方API配置


如果对翻译的要求比较高的朋友,可以使用使用claude大模型来进行字幕识别和翻译,之前使用的是硅基流动平台是没有clude api服务的,这里我们可以使用卡卡字幕助手的方api平台videocaptioner API,官网链接我同样会放在视频说明区,目前平台做活动,充值1人民币直接给转化成一美元的余额,相当一块当作7块2来花,并且平台支持的模型非常多,像openai,gemini,claude,midjourney都是支持,如果经常用到的朋友,可以趁着现在有活动,充一些备用还是可以的,活动说不定什么时候就结束了。我这次打算翻译这个比较长的视频,有三分多钟,先充值10块看够不够用,选择自定义金额,然后填入10块,微信,支付宝都可以支付,好的,充好了,可以看到余额是10美元,我们现在先创建一个令牌,添加令牌,名称就写卡卡翻译助手,然后永不过期,提交,现在把令牌复制一下。回到卡卡助手设置页面,点击小齿轮,语音转录依然选择faster whisper,然后大模型这里选择open ai,然后输入我们复制过的密钥,base url要选择videocaptioner这个,记得右边的反斜杠v1不要漏掉,模型这里我们可以看到有非常多的选择,openai,gemini,claude,deepseek,一共有290多个,我们选择最新的claude,点击测试,出现这个提示就表示配置成功了。


在这里呢,我准备了一段英伟达2025年发布会的视频,老黄在介绍DGX1,我这个视频三分多钟,由于我的电脑配置一般,已经用了五六年的老电脑,耗时可能有点久,我们也不用一直等着,可以喝杯咖啡休息一下,漫长的等待后,进入到字幕优化和翻译环节,对原有字幕进行拆分重组,这就为下一步的翻译质量奠定了基础,最后翻译,合并视频的过程都和之前是一样的,我们一起来看一下字幕的效果。感觉怎么样?这个使用claude翻译的花费的就相对deepseek要贵一些,不过整体来看,还是相当便宜的,3分多钟的视频花费了0.1人民币,其实花费是非常少的,很少的花费就实现了字幕自由。

本来这个章节是要给大家介绍使用卡卡字幕助手给youtube等在线视频添加字幕翻译的,但由于youtube平台的更新,现在卡卡字幕助手的下载功能无法使用了,等这个软件有更新,我也会第一时间通知大家。

好的,今天的视频就讲到这里了,如果我的视频对你有所帮助,不妨给我的视频点个赞,如果不想错过我更加精彩的视频,不妨订阅和关注一下我,我们下期视频见,88




Post a Comment

后一页 前一页