Python中的库PyPDF2
以实现任意选定页面的合并。通过文件夹遍历,可以将不同文件夹下的PDF按选定的页面合并在一起,方便快捷。比如,可以指定把除了目录页的其他页面合并在一起批量打印。
%%timeimport PyPDF2 #可从PDF文档提取信息import os #用于获取需要合并的PDF文件所在路径path="data/" # 文件夹路径#1.获取需要用于合并的文件名及路径files=[]for file in os.listdir(path):if file.endswith(".pdf"): #排除文件夹内的其它干扰文件,只获取PDF文件files.append(path+file) #2.获取每个PDF文件里面需要的信息并添加到写入文件pdf_writer=PyPDF2.PdfFileWriter()for file in files:pdf_obj=open(file,'rb')# 以二进制读取,将保留PDF中的所有信息pdf_reader=PyPDF2.PdfFileReader(pdf_obj)for page_num in range(1,pdf_reader.numPages): #不要第一页的封面,从第2页开始获取page_obj=pdf_reader.getPage(page_num)pdf_writer.addPage(page_obj)#3.写入并保存汇总PDF文件pdf_output_file=open("data\combined_inv.pdf",'wb') #以二进制写入,将保留源PDF中的所有信息pdf_writer.write(pdf_output_file)pdf_output_file.close()