跳转到内容

PDF 处理 (pdf)

pdf 是处理 PDF 文件的技能。它的核心是:读取、提取、转换和处理 PDF 文档。

当用户提到以下内容时使用:

  • PDF 文件
  • 提取 PDF 文字
  • PDF 转其他格式
  • 编辑/修改 PDF
# 使用 PyPDF2 读取
from PyPDF2 import PdfReader
reader = PdfReader('document.pdf')
text = ''
for page in reader.pages:
text += page.extract_text()
# 提取 PDF 中的图片
from PyPDF2 import PdfReader
reader = PdfReader('document.pdf')
for page_num, page in enumerate(reader.pages):
for img_num, img in enumerate(page.images):
with open(f'page{page_num}_img{img_num}.jpg', 'wb') as f:
f.write(img.data)
from PyPDF2 import PdfMerger
merger = PdfMerger()
merger.append('file1.pdf')
merger.append('file2.pdf')
merger.write('merged.pdf')
from PyPDF2 import PdfReader, PdfWriter
reader = PdfReader('document.pdf')
writer = PdfWriter()
# 提取第 1-3 页
for i in range(3):
writer.add_page(reader.pages[i])
writer.write('extracted.pdf')
from PyPDF2 import PdfReader, PdfWriter
reader = PdfReader('document.pdf')
writer = PdfWriter()
for page in reader.pages:
page.rotate(90) # 旋转 90 度
writer.add_page(page)
writer.write('rotated.pdf')
需求:从 PDF 合同中提取关键条款
步骤:
1. 读取 PDF 文字
2. 识别关键信息(日期、金额、双方)
3. 提取并格式化输出
需求:批量提取发票信息
步骤:
1. 遍历文件夹中的 PDF
2. 提取发票号、金额、日期
3. 导出为 CSV
需求:将 PDF 页面转为图片
步骤:
1. 读取 PDF
2. 使用 pdf2image 转换
3. 保存为 PNG/JPG

读取

PdfReader + extract_text()

合并

PdfMerger + append()

拆分

PdfWriter + add_page()

转换

pdf2image、pdfplumber


查看源文件: GitHub原始文件