/** |
* 读PDF文件,使用了pdfbox开源项目,新的版本已经支持中文了。 |
* 上www.pdfbox.org下载读PDF的jar包 |
* @param fileName |
*/ |
public void readPDF(String fileName) { |
File file = new File(fileName); |
FileInputStream in = null ; |
try { |
in = new FileInputStream(fileName); |
//新建一个PDF解析器对象 |
PDFParser parser = new PDFParser(in); |
//对PDF文件进行解析 |
parser.parse(); |
//获取解析后得到的PDF文档对象 |
PDDocument pdfdocument = parser.getPDDocument(); |
//新建一个PDF文本剥离器 |
PDFTextStripper stripper = new PDFTextStripper(); |
//从PDF文档对象中剥离文本 |
String result = stripper.getText(pdfdocument); |
System.out.println( "PDF文件" + file.getAbsolutePath() + "的文本内容如下:" ); |
System.out.println(result); |
|
} catch (Exception e) { |
System.out.println( "读取PDF文件" + file.getAbsolutePath() + "生失败!" + e); |
e.printStackTrace(); |
} finally { |
if (in != null ){ |
try { |
in.close(); |
} catch (IOException e1) { |
} |
} |
} |
} |