如何利用Python提取pdf中的表格数据(附实战案例)_Python_编程语言

如何利用Python提取pdf中的表格数据(附实战案例)

2023-02-08 学习力0

核心提示：目录前言pdfplumber简介实战案例前言今天给大家介绍一个Python使用工具，那就是从pdf文件中读取表格数据，主要用到第三方库 pdfplumber。pdfplumber简介pdfplumber是一款基于pdfminer，完全由python开发的pdf文档解析库，不仅可以获取每个字符、矩形框、线等

前言

今天给大家介绍一个Python使用工具，那就是从pdf文件中读取表格数据，主要用到第三方库 pdfplumber。

pdfplumber简介

pdfplumber是一款基于pdfminer，完全由python开发的pdf文档解析库，不仅可以获取每个字符、矩形框、线等对象的具体信息，而且还可以抽取文本和表格。目前pdfplumber仅支持可编辑的pdf文档。

虽然pdfminer也可以对可编辑的pdf文档进行解析，但是比较而言，pdfplumber有以下优势：

二者都可以获取到每个字符、矩形框、线等对象的具体信息，但是pdfplumber在pdfminer的基础上进行了封装和处理，使得到的对象更易于使用，对用户更友好。
二者都能对文本解析，但是pdfminer输出的文本在布局上可能与原文差别比较大，但是pdfplumber抽取出的文本与原文可以有更高的一致性。
pdfplumber实现了表格抽取逻辑，基于最基本的字符、线框等对象的位置信息，定位、识别pdf文档中的表格。

首先安装

pip install pdfplumber

实战案例

本次实战，我们需要将pdf中的获奖队伍信息提取出来，然后保存到excel表格中。

如何利用Python提取pdf中的表格数据(附实战案例)

原始pdf文件中大多数都是如上图所示的表格，这里为了不泄露个人隐私，我就先打上码了哈。

接着开始敲代码提取表格数据！

import pandas as pd
import pdfplumber
 
pdf = pdfplumber.open("第十届“正大杯”国奖名单.pdf")
df = pd.DataFrame()
for i in range(3,53):  # 这里3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3)，53是结束位置
    page = pdf.pages[i]  # 读取pdf中的每一页
    table = page.extract_table()  # 从页数据中提取表格数据
    df = df.append(table)  # 将提取的数据转换为DataFrame二维表格形式
df.drop_duplicates(inplace=True)   # 删除重复值
df.to_excel("第十届“正大杯”国奖名单.xlsx", header=False, index=False)  # 将提取的数据保存为excel

这里，我先是用了循环来提取多页，3是指表格信息是从第4页开始的(程序计数是从0开始,所以这里第4页对应程序中的3)，53是结束位置。

运行之后的结果如下：

如何利用Python提取pdf中的表格数据(附实战案例)

很简单就将pdf中的表格提取出来了。

做到这里，我只是将一个pdf中的数据提取出来了，可是还有几个类似的pdf需要提取，于是我将上述代码功能进行了简单的封装（功能还比较简陋，各位可根据自己的需要进行扩展）。

def pdf_to_excel(file_path,start:int,end:int,excel_name=None):
    '''
    params:
        file_path：需要提取表格的pdf文件的绝对路径
        start：出现表格的起始页码
        end：表格结束页码
        excel_name：最后保存excel文件的文件名(默认为原始pdf文件名)
    '''
    pdf = pdfplumber.open(file_path)
    if not excel_name:
        excel_name = file_path.split('\\')[-1].split('.')[0]
    df_result = pd.DataFrame()
    for i in range(start-1,end):
        page = pdf.pages[i]
        table = page.extract_table()
        df_result = df_result.append(table)
    df_result = df_result.drop_duplicates(inplace=True)
    df_result.to_excel(excel_name+'.xlsx',index=False)
 
pdf_to_excel(file_path=r'C:xxx.pdf',start=4,end=53)

以上就是本次分享的python小工具，希望对有同样需求的你有所帮助！

原文地址：https://blog.csdn.net/m0_64336780/article/details/127538201

免责声明：本文仅代表作者个人观点，与乐学笔记（本网）无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
本网站有部分内容均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，若因作品内容、知识产权、版权和其他问题，请及时提供相关证明等材料并与我们留言联系，本网站将在规定时间内给予删除等相关处理.