結構化資料格式能夠完美保留文件層級關係,適合在內容結構化管理的企業法務、金融科技、數位出版等場景,並且 XML 可以智慧識別標題、段落、表格等,讓合約條款、財務資料、文獻資料等關鍵資訊能夠變得可檢索、可分析。下面介紹如何將大量 PDF 檔案批次轉換成 XML 格式。
1、使用場景
當研究人員需要提取 PDF 文件論文中的圖表資料、參考文獻等元素或將 PDF 文件中章節、註釋、索引自動分離,我們可以批量轉換成 XML 格式,其樹狀結構能完美保留內容層級,同時也能實現內容模組化管理。
2、效果預覽
處理前:

處理後:

3、操作步驟
開啟【核爍文檔批量處理工具】,選擇【PDF 工具】-【PDF 轉換為 XML】。

【新增檔案】自主選擇新增需要轉換的 PDF 文件。
【從資料夾中匯入檔案】匯入選擇資料夾中的所有 PDF 格式檔案。
下方檢視已匯入的檔案。

等待處理完成後,點選儲存位置後方路徑檢視轉換完成的檔案。
