用户注册



邮箱:

密码:

用户登录


邮箱:

密码:
记住登录一个月忘记密码?

发表随想


还能输入:200字
云代码 - java代码库

java 读取PDF文件 (需导入pdfbox包)

2012-11-22 作者: 程序猿style举报

[java]代码库

	/**
	 * 读PDF文件,使用了pdfbox开源项目,新的版本已经支持中文了。
	 * 上www.pdfbox.org下载读PDF的jar包
	 * @param fileName
	 */
	public void readPDF(String fileName) {
		File file = new File(fileName);
		FileInputStream in = null;
		try {
			in = new FileInputStream(fileName);
			//新建一个PDF解析器对象
			PDFParser parser = new PDFParser(in);
			//对PDF文件进行解析
			parser.parse();
			//获取解析后得到的PDF文档对象
			PDDocument pdfdocument = parser.getPDDocument();
			//新建一个PDF文本剥离器
			PDFTextStripper stripper = new PDFTextStripper();
			//从PDF文档对象中剥离文本
			String result = stripper.getText(pdfdocument);
			System.out.println("PDF文件" + file.getAbsolutePath() + "的文本内容如下:");
			System.out.println(result);
			
		} catch (Exception e) {
			System.out.println("读取PDF文件"+ file.getAbsolutePath() + "生失败!" + e);
			e.printStackTrace();
		} finally {
			if (in != null){
				try {
					in.close();
				} catch (IOException e1) {
				}
			}
		}
	}


网友评论    (发表评论)


发表评论:

评论须知:

  • 1、评论每次加2分,每天上限为30;
  • 2、请文明用语,共同创建干净的技术交流环境;
  • 3、若被发现提交非法信息,评论将会被删除,并且给予扣分处理,严重者给予封号处理;
  • 4、请勿发布广告信息或其他无关评论,否则将会删除评论并扣分,严重者给予封号处理。


扫码下载

加载中,请稍后...

输入口令后可复制整站源码

加载中,请稍后...