PDF 处理 (pdf)

PDF 处理（pdf）

概述

pdf 是处理 PDF 文件的技能。它的核心是：读取、提取、转换和处理 PDF 文档。

触发条件

当用户提到以下内容时使用：

PDF 文件
提取 PDF 文字
PDF 转其他格式
编辑/修改 PDF

常用操作

1. 读取 PDF

# 使用 PyPDF2 读取
from PyPDF2 import PdfReader

reader = PdfReader('document.pdf')
text = ''
for page in reader.pages:
    text += page.extract_text()

2. 提取图片

# 提取 PDF 中的图片
from PyPDF2 import PdfReader

reader = PdfReader('document.pdf')
for page_num, page in enumerate(reader.pages):
    for img_num, img in enumerate(page.images):
        with open(f'page{page_num}_img{img_num}.jpg', 'wb') as f:
            f.write(img.data)

3. 合并 PDF

from PyPDF2 import PdfMerger

merger = PdfMerger()
merger.append('file1.pdf')
merger.append('file2.pdf')
merger.write('merged.pdf')

4. 拆分 PDF

from PyPDF2 import PdfReader, PdfWriter

reader = PdfReader('document.pdf')
writer = PdfWriter()

# 提取第 1-3 页
for i in range(3):
    writer.add_page(reader.pages[i])

writer.write('extracted.pdf')

5. 旋转页面

from PyPDF2 import PdfReader, PdfWriter

reader = PdfReader('document.pdf')
writer = PdfWriter()

for page in reader.pages:
    page.rotate(90)  # 旋转 90 度
    writer.add_page(page)

writer.write('rotated.pdf')

场景示例

场景 1：提取合同关键信息

需求：从 PDF 合同中提取关键条款

步骤：
1. 读取 PDF 文字
2. 识别关键信息（日期、金额、双方）
3. 提取并格式化输出

场景 2：批量处理发票

需求：批量提取发票信息

步骤：
1. 遍历文件夹中的 PDF
2. 提取发票号、金额、日期
3. 导出为 CSV

场景 3：PDF 转图片

需求：将 PDF 页面转为图片

步骤：
1. 读取 PDF
2. 使用 pdf2image 转换
3. 保存为 PNG/JPG

速查卡片

读取

PdfReader + extract_text()

合并

PdfMerger + append()

拆分

PdfWriter + add_page()

转换

pdf2image、pdfplumber

查看源文件: GitHub原始文件