读取
PdfReader + extract_text()
pdf 是处理 PDF 文件的技能。它的核心是:读取、提取、转换和处理 PDF 文档。
当用户提到以下内容时使用:
# 使用 PyPDF2 读取from PyPDF2 import PdfReader
reader = PdfReader('document.pdf')text = ''for page in reader.pages: text += page.extract_text()# 提取 PDF 中的图片from PyPDF2 import PdfReader
reader = PdfReader('document.pdf')for page_num, page in enumerate(reader.pages): for img_num, img in enumerate(page.images): with open(f'page{page_num}_img{img_num}.jpg', 'wb') as f: f.write(img.data)from PyPDF2 import PdfMerger
merger = PdfMerger()merger.append('file1.pdf')merger.append('file2.pdf')merger.write('merged.pdf')from PyPDF2 import PdfReader, PdfWriter
reader = PdfReader('document.pdf')writer = PdfWriter()
# 提取第 1-3 页for i in range(3): writer.add_page(reader.pages[i])
writer.write('extracted.pdf')from PyPDF2 import PdfReader, PdfWriter
reader = PdfReader('document.pdf')writer = PdfWriter()
for page in reader.pages: page.rotate(90) # 旋转 90 度 writer.add_page(page)
writer.write('rotated.pdf')需求:从 PDF 合同中提取关键条款
步骤:1. 读取 PDF 文字2. 识别关键信息(日期、金额、双方)3. 提取并格式化输出需求:批量提取发票信息
步骤:1. 遍历文件夹中的 PDF2. 提取发票号、金额、日期3. 导出为 CSV需求:将 PDF 页面转为图片
步骤:1. 读取 PDF2. 使用 pdf2image 转换3. 保存为 PNG/JPG读取
PdfReader + extract_text()
合并
PdfMerger + append()
拆分
PdfWriter + add_page()
转换
pdf2image、pdfplumber
查看源文件: GitHub原始文件