批量提取 srt 字幕文件中的文字
翻譯:简体中文繁體中文,更新於:2025-04-23 15:20
相信經常與視頻處理打交道的小夥伴對字幕文件一定不陌生。 字幕文件一般來說會包含字幕序號、播放時間軸與具體的字幕內容,經常用於在視頻播放的時候在對應的時間顯示相應的字幕內容。 字幕文件通常會有多種類型,srt 後綴的字幕文件是比較常見的一種類型。 有時候我們需要將字幕文件的內容進行提取,比如去除字幕序號、播放時間軸等信息,只保留具體的字幕內容,那我們應該怎麼做呢? 今天就一起來看一下如何批量提取 srt 字幕文件中的文字。
在介紹如何批量提取 srt 字幕文件中的文字之前,我們先看一下字幕文件的格式是什麼樣的。
從上圖我們就能看出來,沒組字幕文件都至少四行
1、字幕編號,是自增的數字。
2、播放時間軸,格式為【播放開始時間 --> 播放結束時間】。
3、一行或者多行字幕內容。
4、一個空行。
今天要介紹如何批量提取 srt 字幕文件中的文字,也就是要去除字幕文件中的序號、時間軸以及空行的內容,那應該怎麼做呢? 其實目前我們並沒有特別好的方式去提取 srt 字幕文件中的文字內容,找了一圈也沒有比較合適的軟件。 目前找到的一種比較好的方式就是通過正則表達式的方式進行處理。 但是對於不太熟悉正則的小夥伴來說,門檻還是比較高的。 並且通過正則去處理達不到批量處理的效果,只能一次處理一個文件,並且還容易出錯。 假如現在有大批量的 srt 文件都需要提取字幕文件的內容,那最高效的方式是什麼呢?
我們打開「我的ABC軟體工具箱」,按下圖所示,左側選擇「文件內容」,右側選擇「按規則查找並替換文件內容」的功能。
進入功能後,我們第一步就是需要選擇提取文件內容的字幕文件,也就是我們前面說的 srt 文件,由於是批量操作,所以我們一次性可以選擇非常多的 srt 字幕文件。
這裡也可以直接將 srt 文件拖進來。 選擇好後我們就可以點擊下一步進入選項設置的界面。
設置界面按照上圖的進行設置就可以了,注意每一項都需要按照上圖的進行選擇喲! 公式(正則表達式)的輸入框中輸入的內容為:((\r\n)|(\r)|(\n))? \D ((\r\n)|(\r)|(\n))\d{2}:\d{2}:\d{2},\d{3} --> \d{2}:\d{2}:\d{2},\d{3}((\r\n)|(\r)|(\n))。
設置及輸入完成之後我們繼續點擊下一步進行輸出目錄的選擇,選擇好之後繼續點擊下一步,軟件就開始進行批量提取 srt 字幕文件中的文字的處理了,一會兒我們就能得到已經刪除字幕編號、字幕時間軸等信息的文件了。