[java]代码库
/**
* 读PDF文件,使用了pdfbox开源项目,新的版本已经支持中文了。
* 上www.pdfbox.org下载读PDF的jar包
* @param fileName
*/
public void readPDF(String fileName) {
File file = new File(fileName);
FileInputStream in = null;
try {
in = new FileInputStream(fileName);
//新建一个PDF解析器对象
PDFParser parser = new PDFParser(in);
//对PDF文件进行解析
parser.parse();
//获取解析后得到的PDF文档对象
PDDocument pdfdocument = parser.getPDDocument();
//新建一个PDF文本剥离器
PDFTextStripper stripper = new PDFTextStripper();
//从PDF文档对象中剥离文本
String result = stripper.getText(pdfdocument);
System.out.println("PDF文件" + file.getAbsolutePath() + "的文本内容如下:");
System.out.println(result);
} catch (Exception e) {
System.out.println("读取PDF文件"+ file.getAbsolutePath() + "生失败!" + e);
e.printStackTrace();
} finally {
if (in != null){
try {
in.close();
} catch (IOException e1) {
}
}
}
}