站長資訊平臺

手把手教你如何用Python從PDF文件中導(dǎo)出數(shù)據(jù)（附鏈接）

2018-11-30 來源：raincent

本文介紹了在提取出想要的數(shù)據(jù)之后，如何將數(shù)據(jù)導(dǎo)出成其他格式的方法。

有很多時候你會想用Python從PDF中提取數(shù)據(jù)，然后將其導(dǎo)出成其他格式。不幸的是，并沒有多少Python包可以很好的執(zhí)行這部分工作。在這篇貼子中，我們將探討多個不同的Python包，并學(xué)習(xí)如何從PDF中提取某些圖片。盡管在Python中沒有一個完整的解決方案，你還是應(yīng)該能夠運用這里的技能開始上手。提取出想要的數(shù)據(jù)之后，我們還將研究如何將數(shù)據(jù)導(dǎo)出成其他格式。

讓我們從如何提取文本開始學(xué)起!

使用PDFMiner提取文本

最被大家所熟知的可能是一個叫做PDFMiner的包。PDFMiner包大約從Python 2.4版本就存在了。它的主要目的是從PDF中提取文本。實際上，PDFMiner可以告訴你某文本在分頁上具體的位置和字體信息。對于Python 2.4到2.7版本，你可以參考以下網(wǎng)站來了解PDFMiner的更多信息：

GitHub – https://github.com/euske/pdfminer

PyPI – https://pypi.python.org/pypi/pdfminer/

Webpage – https://euske.github.io/pdfminer/

PDFMiner是不兼容于Python 3的。幸運的是，PDFMiner家族的一個分支PDFMiner.six在Python 3上完全能勝任同樣的功能。

你可以在以下網(wǎng)站上找到：

https://github.com/pdfminer/pdfminer.six

關(guān)于PDFMiner的安裝說明已經(jīng)比較過時了。其實你可以用pip命令來安裝它：

如果你要在Python 3上安裝PDFMiner(這也許就是你現(xiàn)在正在做的)，你需要這樣安裝：

PDFMiner的相關(guān)文檔很少。你將很大可能地需要使用Google和Stack Overflow兩個查詢工具來弄清楚如何在這篇貼子的涵蓋內(nèi)容之外有效地使用PDFMiner。

提取所有文本

有時你會想要提取PDF文件中的所有文本。PDFMiner包提供了一些不同的方法使你能夠做到這一點。我們先來探討一些編程的方法。讓我們試著從一個國稅局W9表單中讀取所有的文本。

你可以從這里得到表單副本：

https://www.irs.gov/pub/irs-pdf/fw9.pdf

保存完這個PDF文件之后，你可以參考以下代碼：

當(dāng)你直接使用PDFMiner包時，往往會有點繁瑣。這里，我們從PDFMiner的不同模塊中引入多個不同的類。由于這些類都沒有文檔說明，也沒有實現(xiàn)其文檔字符串屬性，我將不會深入講解它們做了什么。如果你真的好奇的話，盡管可以深入地研究它們的源代碼。無論如何，我認為我們可以大致照以上代碼行事。

我們做的第一件事就是創(chuàng)建一個資源管理器的實例。然后通過Python的輸入輸出(io)模塊創(chuàng)建一個似文件對象。如果你使用的是Python 2，你應(yīng)該使用StringIO模塊。接下來的步驟是創(chuàng)建一個轉(zhuǎn)換器。在這個例子里，我們選擇使用TextConverter，如果你想要的話，你還可以使用HTMLConverter或XMLConverter。最后，我們創(chuàng)建一個PDF解釋器對象，攜帶著我們的資源管理器和轉(zhuǎn)換器對象，來提取文本。

最后一步是打開PDF文件并且循環(huán)遍歷每一頁。結(jié)尾部分，我們抓取所有的文本，關(guān)閉不同的信息處理器，同時打印文本到標準輸出(stdout)。

按頁提取文本

通常我們并不需要從一個多頁文檔中抓取所有的文本。你一般會想要處理文檔的某些部分。那么，讓我們改寫代碼以便它提取文本呈分頁的格式。這將允許我們在檢查文本時，一次一頁地進行：

在這個例子中，我們創(chuàng)建了一個生成器函數(shù)按頁生成(yield)了文本。extract_text函數(shù)按頁打印出文本。此處我們可以加入一些分析邏輯來得到我們想要的分析結(jié)果�；蛘呶覀兛梢詢H是將文本(或HTML或XML)存入不同的文件中以便分析。

你可能注意到這些文本沒有按你期望的順序排列。因此你需要思考一些方法來分析出你感興趣的文本。

PDFMiner的好處就是你可以很方便地按文本、HTML或XML格式來“導(dǎo)出”PDF文件。

你也可以使用PDFMiner的命令行工具，pdf2txt.py和dumppdf.py，來為你執(zhí)行導(dǎo)出工作。如果你不想試圖自己弄明白PDFMiner。根據(jù)pdf2txt.py 的源代碼，它可以被用來導(dǎo)出PDF成純文本、HTML、XML或“標簽”格式。

通過pdf2txt.py導(dǎo)出文本

伴隨著PDFMiner一起的pdf2txt.py命令行工具會從一個PDF文件中提取文本并且默認將其打印至標準輸出(stdout)。它不能識別文字圖片，就像PDFMiner不支持光學(xué)字符識別(OCR)一樣。讓我們嘗試用最簡單的方法來使用它，那就是僅僅傳遞給它一個PDF文件的路徑。我們會使用w9.pdf文件。打開一個終端并且定位到你存放PDF文件的位置，或修改一下命令指向待處理文件：

如果你執(zhí)行這條命令，它將打印出所有的文本到標準輸出(stdout)。你也可以使pdf2txt.py 將文本寫入文件成文本、HTML、XML或“帶標簽PDF”格式。XML格式將給出關(guān)于PDF的大部分信息，因為它包含了每一個字母在文件中的位置以及字體信息。不推薦使用HTML格式，因為pdf2txt生成的標記往往會很丑。以下是教你如何生成不同格式輸出的方法：

第一條命令將創(chuàng)建一個HTML文件，而第二條將創(chuàng)建一個XML文件。

最終的結(jié)果看上去有點怪，但是它并不太糟糕。XML格式的輸出極其冗長，因此我不能將它完整地在這里重現(xiàn)，以下是一小段示例：

使用Slate提取文本

Tim McNamara覺得PDFMiner使用起來太過愚蠢和費力，因此他寫了一個圍繞它的包裝器叫做slate，以使它更簡單地從PDF中提取文本。不幸的是，它和Python 3不兼容。如果你想試用，你可能需要easy_install以便于安裝distribute包，如下：

我不能使用pip 正確安裝這個包。然而一旦安裝了它，你將能夠使用pip來安裝slate：

注意最新的版本是0.5.2，而pip未必能拿到這個版本。如果拿不到，那么你可以從GitHub上直接獲取slate安裝：

現(xiàn)在我們已經(jīng)準備好寫一些代碼來從PDF中提取文本了：

正如你能看到的，讓slate分析一個PDF文件，你只需要引進slate然后創(chuàng)建一個它的PDF類的實例。PDF類其實是Python內(nèi)置類list的一個子類，所以它僅是返回了一列/可遍歷的文本頁。如果PDF文件設(shè)有密碼，你可以傳入一個密碼參數(shù)。不管怎樣，一旦文件被分析，我們只要打印出每一頁的文本即可。

我非常喜歡slate，它用起來更簡單。不幸的是，這個包也幾乎沒有什么相關(guān)文檔。在瀏覽過它的源碼之后，它看起來只支持純文本提取。

導(dǎo)出你的數(shù)據(jù)

現(xiàn)在我們得到了一些文本，我們會花費一些時間來學(xué)習(xí)如何導(dǎo)出數(shù)據(jù)成各種不同的格式。具體來說，我們將學(xué)習(xí)如何以如下方法導(dǎo)出文本：

XML
JSON
CSV

讓我們開始吧!

導(dǎo)出成XML

可擴展標記語言(XML)格式是最為人所熟知的輸入輸出格式之一。它被廣泛運用于互聯(lián)網(wǎng)中的許多不同的事物。正如我們已經(jīng)在本貼中看到的，PDFMiner也支持XML作為它的輸出之一。

話雖這么說，讓我們創(chuàng)建我們自己的XML生成工具。如下是一個簡單的例子：

這段代碼將使用Python內(nèi)置的XML庫，minidom和ElementTree。我們也引入PDFMiner生成器代碼以用于每次抓取一頁文本。在這個例子中，我們用PDF的文件名創(chuàng)建了我們頂層的元素。然后在它的下層增加了一個頁(Pages)元素。下一步是for循環(huán)，在此循環(huán)中我們從PDF中提取每一頁然后保存想要的信息。此處你可以加入一個特定的分析程序，其中你可以將頁分成句子或者單詞，從而分析出更有趣的信息。比如，你可能只想得到有某個特定名字或日期/時間戳的句子。你可以運用Python的正則表達式來找出這類東西，或者僅是檢查子字符串在句子中的存在。

對于這個例子，我們僅僅是提取了每一頁的前100個字符并將其存入一個XML的子元素(SubElement)中。接下來的一段代碼可以簡化成僅是寫出XML文件。然而，ElementTree不會做任何事來使得XML易讀。它最后看上去有點像壓縮的JavaScript似的一塊巨型文本。所以我們在寫入文件之前使用minidom 通過空格來“美化”XML，而不是將整塊文本寫入磁盤。最終看上去像這樣：

上面是漂亮干凈的XML，同時它也是易讀的。錦上添花的是，你可以運用你在PyPDF2章節(jié)中所學(xué)到的知識從PDF中提取元數(shù)據(jù)(metadata)，然后將其也加入到XML中。

導(dǎo)出成JSON

JavaScript對象注釋, 或者JSON, 是一種易讀易寫的輕量級的數(shù)據(jù)交換格式。Python包含一個json 模塊于它的標準庫中，從而允許你用編程方式來讀寫JSON。讓我們運用從前一章節(jié)學(xué)到的內(nèi)容來創(chuàng)建一個導(dǎo)出器腳本來輸出JSON而不是XML：

這里，我們引入所需要的不同的庫，包括PDFMiner模塊。然后創(chuàng)建一個函數(shù)，以PDF文件的輸入路徑和JSON文件的輸出路徑為參數(shù)。在Python中JSON基本上就是一個字典，所以我們創(chuàng)建一對簡單的頂層的鍵：Filename和Pages。Pages鍵對應(yīng)一個空的表單。接著，我們循環(huán)遍歷PDF的每一頁并且提取每一頁的前100個字符。然后創(chuàng)建一個字典變量以頁號作為鍵100個字符作為值并將其添加到頂層的頁表單中。最后，我們利用json 模塊的dump 命令生成文件。

文件的內(nèi)容最終看上去像這樣：

又一次，我們得到了易讀的輸出。你也可以通過PDF的元數(shù)據(jù)(metadata)來加強這個例子，如果你樂意的話。請注意輸出將會改變，它依賴于你想從每一頁或文檔中分析出什么樣的結(jié)果。

現(xiàn)在讓我們來快速看一下怎樣導(dǎo)出CSV文件。

導(dǎo)出成CSV

CSV是 **comma separated values** (逗號分隔值)的縮寫。它是一種漂亮的標準格式，并且已經(jīng)存在了很長時間。CSV的優(yōu)點就是Microsoft Excel和 LibreOffice都能夠自動地以漂亮的電子表格的方式將它們打開。你也可以在一個文本編輯器中打開CSV文件，如果你樂意看到它的原始值的話。

Python有一個內(nèi)置的csv 模塊，你可以用它來讀寫CSV文件。在這里我們將用它從我們由PDF中提取的文本來創(chuàng)建一個CSV。讓我們看一下代碼：

這個例子中，我們引入了Python的csv庫。除此以外，引入的庫和前一個例子相同。在函數(shù)中，我們利用CSV文件路徑創(chuàng)建了一個CSV文件處理器。然后用文件處理器作為唯一的參數(shù)初始化了一個CSV寫入器對象。接著像之前一樣遍歷了PDF頁。這里唯一的不同就是我們將前100個字符分割成了單個的詞。這將允許我們擁有一些真實的數(shù)據(jù)來加入到CSV中。如果不這樣做，那么每一行將只會有一個元素在其中，那就不算一個真正的CSV文件了。最后，我們將一列單詞寫入CSV文件中。

這就是得到的結(jié)果：

我認為這個例子同JSON或XML的例子相比讀起來難了點，但是它不算太難�，F(xiàn)在讓我們繼續(xù)來看一下怎樣才能將圖片從PDF中提取出來。

從PDF中提取圖片

不幸的是，并不存在Python包可以真正地做到從PDF中提取圖片。我找到的最接近的東西是有一個叫minecart的項目宣稱可以做到這一點，但是它只在Python 2.7上有效。我沒法使其運行于我的PDF樣本。在Ned Batchelder的博客上有一篇文章談到了一點兒如何從PDF中提取JPG圖片。代碼如下：

這同樣對我使用的PDF文件無效。有一些人在留言中宣稱代碼對他們的一些PDF文件有效，同時也有一些留言例舉了修改后的代碼。Stack Overflow網(wǎng)站上有關(guān)于這個的各種代碼，其中一些這樣或那樣地使用了PyPDF2。但沒有一個對我有效。

我的建議是使用一個類似于Poppler 的工具來提取圖片。Poppler有一個工具叫做pdfimages，你可以同Python的subprocess模塊一起來使用。以下是你如何在沒有Python的情況下使用它：

請確保images文件夾(或你想新建的任何輸出文件夾)已經(jīng)被創(chuàng)建，因為pdfimages不會為你創(chuàng)建它。

讓我們寫一個Python腳本來執(zhí)行同樣的命令，請確保輸出文件夾已經(jīng)存在：

在這個例子中，我們引入了subprocess和os模塊。如果輸出路徑不存在，我們會嘗試創(chuàng)建它。然后我們運用subprocess的call函數(shù)來執(zhí)行pdfimages命令。使用call函數(shù)是因為它將等到 pdfimages命令完全執(zhí)行完才返回。你可以代之以Popen，但是那將基本上在后臺運行命令進程。最后，我們打印出輸出路徑下的細節(jié)，以確定所有的圖片都被提取進了其中。

還有一些網(wǎng)絡(luò)上的其它文章引用了一個叫做Wand 的庫，你也許可以試一試。它是一個ImageMagick的包裝器。還有一個值得關(guān)注的是綁定了Poppler的Python叫做pypoppler，雖然我沒有能夠找到任何和這個包相關(guān)的提取圖片的例子。

總結(jié)

這篇文章網(wǎng)羅了很多信息。我們學(xué)習(xí)了一些可以用來從PDF中提取文本的包，如PDFMiner或Slate。我們還學(xué)習(xí)了如何運用Python的內(nèi)置庫來導(dǎo)出文本到XML、JSON和CSV。最后，我們研究了一下從PDF中導(dǎo)出圖片這個棘手的問題。盡管Python目前沒有任何出色的庫可以完成這個工作，你可以采用其它工具的變通方案，例如Poppler的pdfimage工具模塊。

原文標題：Exporting Data From PDFs With Python

原文鏈接：https://dzone.com/articles/exporting-data-from-pdfs-with-python

標簽： Google 代碼互聯(lián)網(wǎng) 腳本網(wǎng)絡(luò)

版權(quán)申明：本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：west999com@outlook.com
特別注意：本站所有轉(zhuǎn)載文章言論不代表本站觀點！
本站所提供的圖片等素材，版權(quán)歸原作者所有，如需使用，請與原作者聯(lián)系。

上一篇:大數(shù)據(jù)學(xué)習(xí)路線指南（最全知識點總結(jié)）

下一篇:Python數(shù)據(jù)可視化的四種簡易方法

相關(guān)文章

最新資訊

熱門推薦

為學(xué)習(xí)和知識分享目的，本站文章部分自網(wǎng)絡(luò)，本站文章部分自網(wǎng)絡(luò)，如有侵權(quán)，請聯(lián)系：2653426586@qq.com QQ：2653426586

如有其他需求，請聯(lián)系：2653426586@qq.com QQ：2653426586

友情鏈接：網(wǎng)絡(luò)安全運維經(jīng)驗 IT技術(shù)分享運維隨筆錄鮮花東郊到家往約到家

中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

手把手教你如何用Python從PDF文件中導(dǎo)出數(shù)據(jù)（附鏈接）