【优秀UP小讲堂】一键提取B站CC字幕、AI自动生成字幕

额……老铁们,我图吧老捡垃圾的了。最近咱大量出杂谈视频然而还懒得打字幕,之前传统的视频下载器虽然能下载弹幕但是对字幕却无能为力。

修改自动生成字幕可是比自己手敲字幕简单得多,成本也比之前的自动字幕软件低很多。所以咱就大量使用了上期说到的提取AI字幕手动修改的方法。而经过简单迭代咱确实找到了上期提取AI字幕操作的简化版本,支持本地运行,简单说明一下方法。

其实本质原理是没有区别,只是手动提取视频网站AI自动生成字幕 的自动化版本,需要两个条件:

一是需要浏览器有Tampermonkey插件,二是需要支持HTML5播放器

脚本地址:greasyfork.org/zh-CN/scripts/378513-bilibili-cc字幕工具

GitHub:/indefined/UserScripts

本质上是个JS脚本,所以支持本地运行不需要F12再手动复制粘贴到在线工具转换格式

原介绍:使用说明

原理上来说使用Tampermonkey、Violentmonkey安装应该可以正常使用

但不知道为什么似乎还是会有可能由于安全沙盒问题被隔离从而导致一些(海外)番剧解析字幕信息失败

如果只是某个番剧临时想下载一下的话……可以不使用脚本管理器安装,新建一个书签,地址写上 javascript:(function(){document.head.(document.('script')).src = ""})()

想下载的时候在那个番剧页面点击这个书签就可以加载脚本了,因为不通过脚本管理器这个方法理论上不会有沙盒问题

功能

旧版HTML5播放器支持使用CC字幕

可配置语言/字体/背景/阴影等

CC字幕下载

新/旧版HTML5播放器可用

支持ASS/SRT/LRC/BCC/TXT纯文本格式

按住ctrl点击下载可直接下载上一次选择的格式

默认系统编码,CR/LF换行

载入本地字幕

仅支持3.0以下HTML5播放器内核,

新版3.x以上播放器已失效

支持ASS/SSA/SRT/LRC/BCC/SBV/VTT格式

支持字幕偏移调整,支持读取LRC歌词内置偏移

支持UTF-8/GB18030/BIG5/UNICODE/JIS/EUC-KR编码

目前在多数视频可启用,但可能会有异常情况,如果遇到异常情况请先查看是否为已知问题

兼容性

本脚本使用了较新的ES6+和HTML5 API,比较旧的浏览器版本可能不兼容

chrome 72 @ Tampermonkey 4.7/4.8 测试通过

firefox 64 @ Tampermonkey 4.8 、Violentmonkey v2.10 测试通过

不兼容GreaseMonkey4+……

其它浏览器和脚本管理器未知

已知问题

仅支持HTML5播放器,不支持FLASH播放器

在收藏播放列表/稍后再看列表中第一个加载的视频不会生效,要点击一次右侧播放列表里的视频才会生效

字幕下载

应该只支持浏览器自身下载,外部下载工具无效

ASS格式字幕如果遇到字体/样式显示不正常或不顺眼请使用SRT格式

LRC歌词格式不支持结束时间戳和内容换行,会丢弃字幕结束时间,如果字幕中有换行将替换为空格

如果有其它下载后的字幕使用显示不正常情况请提交反馈视频链接

本地字幕

加载可能会乱码,如果尝试完下拉框中的编码仍然乱码,请将文件转为UTF-8编码

可能会无提示加载失败,如遇到未提示加载失败有详细可复现失败步骤或其它头绪请到这里提交反馈

B站的CC字幕不支持内置样式和特效,所有字幕内置的样式和{\code}格式的字幕特效将会被替换忽略

VTT格式字幕仅支持简单文本,如果文件中存在内联样式或者结构化数据将会被忽略或者表现乱码

LRC歌词格式本身没有结束时间戳,所有歌词字幕会持续到下一条字幕开始或者最后一条结束后20秒

不支持XLRC格式,如果使用XLRC所有翻译行将会被丢弃且卡拉OK特效会表现为乱码

如果有除了以上列出的其它类似特效代码残留乱码或者字幕内容丢失请反馈提供原始字幕内容

设置存储相关

本脚本使用浏览器自身的localStorage存储设置数据

包含播放器其它设置数据所有网页新旧版通用

新版播放器的设置保存读取由播放器自身维护

旧版播放器设置保存读取由脚本自身维护

脚本在初始化时读取播放器设置内的字幕设置

如果以前没有在新版页面使用过CC字幕会自动生成一个默认设置,有没有效果就不知道了

页面关闭时重新读取整个播放器设置并替换字幕设置为设置面板内容

如果开启多个旧版播放器网页,最后一个关闭的页面设置有效

使用演示

展开全文

首先确保浏览器有Tampermonkey或者同类插件,然后直接通过脚本发布页安装脚本

然后再打开B站的视频就可以直接选择下载字幕(如果有字幕,没有无解)

然后就可以直接在弹出的窗口界面中选择格式进行下载,根据用途不同格式也很多,当然原则上有SRT就能实现对其他格式的转换。这个脚本相比之前的在线工具只支持SRT TXT支持的格式更多而且能一键按视频标题命名,非常的方便。

下载出来的字幕都是带标题命名的,而且格式和F12再用在线工具转换的效果都是一样的,相当于省去了JSON字幕转换的工序。

可以看到现在AI字幕的识别率还是相当不错的,比人耳朵好使。在咱视频底下很多观众反馈听不清咱说啥的内容AI都能正确识别,所以只需要少量的校对工作就可以得到完美的字幕。现在已知B站AI自动识别字幕有以下的问题:对于一些冷门词汇比如兆芯并不能正常识别,对于龙芯则正好相反,龙芯的词汇应该在B站的AI字幕库有标记,所以无论发音是否标准都不能正确识别,症状为要么识别出错误的同音结果要么干脆整句话直接不显示,如果词汇出现频次过高甚至整个视频都无法输出AI字幕,如这期:【图吧日常】550包邮的兆芯U6780A主机安装六管塔式散热器 BV1yv4y1e7ae

所以说现在国内的AI字幕实际应用起来还是多有问题。校对的时候最好多注意自己对一遍原视频听听情况才能确保没有丢句落句或者缩句,这些问题AI字幕都有如果想当然的通过语义来进行校对很可能就直接会漏过去,要对照原视频。

之前咱做汉化的时候其实就特别讨厌有的汉化组对于原作品的翻译相当的草率,前言后记不翻,框外不翻拟声词不做哪怕标记一下也行啊,所以咱觉得特别重要的作品才会自己下场处理,现在没想到回到字幕组的工作之后发现AI居然也有这个毛病,所以说做事还得认真还得细致才行,就怕想当然不认真那就很容易中招甚至上当。比如咱最近出的视频就有很多观众反馈雀食之前太想当然了没有进行辩证思考所以才会上了龙芯圈的邪当,这个确实是人性的弱点毕竟咱作为图吧垃圾佬捡垃圾多年手上还有兆芯的机器一开始也选择相信了龙芯的节奏视频,但是现在想想时间是检验真理的唯一标准这话还真不算错,不试试永远不知道怎么回事。飞腾咱不知道没查过,好在兆芯的机器非常便宜几百块钱很容易就能买到八核的机器回来试一下看看水平,所以其实各位也可以自己试试,确实没有传说中的那么弱。

回到字幕

这个AI字幕的生成因为落后了国际服好几个大版本所以和咱18年在油管直接改DNS就能直连然后通过录屏搬运视频的年代肯定是要差很多意思的,但是国服反正22年以前的视频无论播放多少 UP等级如何或者说热度高低都是没有任何AI字幕的。所以说这个功能终究是有个极限的,虽然理论上B站可以支持原地套娃想办法给原视频音频保留重复投稿就能出AI字幕,但是啊这里我们还是想说一下之前咱担心的问题。

各位如果仔细看上面的截图的话就能发现这期我们使用插件下载字幕的并不全都是自己的视频,而之前咱已经警告过隔壁UP了如果自己辛苦肝了很长时间的视频只出了视频的话,就很容易被人用这种方法扒文案出文章,所以建议是自己也出文章把对面的路堵死。但是现在想想这么整果然不是很现实,毕竟不是每个UP都像死耗子一样有专业团队伺候的,他们如果没有足够的时间或者精力的话就很容易出完视频文案做不出来或者不想做。

那么面对这种威胁难道就没有什么办法可以解决吗?目前来看完全解决的方法是没有的,毕竟视频放出来只要让人观看了就有办法保留音频提取字幕逆向文案,这个就好像画师自己放出来的私稿或者平时练手的摸鱼作就放在网络空间上想要避免被人临摹描画学习或者AI训练上不可能的,除非你不发,发了就有这个风险,不存在什么加密之后就可以只供人看不可能被人扒,那是不可能的。

但是确实可以通过被动方法关闭不需要的AI字幕尤其是自己的视频做了字幕的情况下一定程度上避免这种装了插件直接就能下载字幕的,b站确实上给了这个AI字幕的关闭通道的

这样之前咱们警告过的隔壁UP就可以把之前的视频删了重投平台不产生AI字幕,相对比较安全。但是如果无论如何都想扒文案比如对面龙芯圈之前就在搞的玩套娃给视频录屏或者缓存之后投自制或者把音频摘出来用自己的号投稿就没法解决了。

所以AI这种东西本身就是双刃剑,现在看来肯定会造成一时一刻一刻的混乱,但是未来对于人类长远的发展肯定是有益无害的。正如之前咱在AI作画会毁灭艺术行业吗? 中说的一样,现在对AI绘画抵制最为强烈的基本都是底层的画师,他们画风小众出稿慢成本高雀食卷不过AI,但是咱认识的画师里面真正实力在线辨识度高人气旺工作稳定的基本都对AI表示无所谓的态度,甚至有些还在积极参与应用辅助作画,这就是市场规律了,当一个东西成本低效率高应用广的时候肯定会影响一部分人,但是对于绝大多数人来说这种东西的出现都是有利的。所以即使咱作为UP也不能否定AI字幕本身对于咱来说确实极大程度的降低了制作字幕的成本,甚至未来AI可能会直接参与翻译接手原有的汉化组字幕组之类的工作都有可能,但是无论如何还是那句话,技术无罪,主要还是看使用技术的人的选择。我们作为图吧垃圾佬不利用自己的知识去带节奏坑小白诋毁国产就是在行善积德,善有善报恶有恶报不是不报时候未到,希望各位不忘初心永不迷茫。

谢谢朋友们!

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注