Java 解析 PDF， pdfbox读取PDF内容 -

snowdymy

浏览: 139769 次
性别:
来自: 上海

最近访客更多访客>>

angel20082008

五音谷

songbj

ericzhang19840

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Java 解析 PDF， pdfbox读取PDF内容

博客分类：

Java 网页抓取
Java

import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.OutputStreamWriter;

import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class Pdftext {
public static String getTxt(File f) throws Exception {
  String ts = "";
  try {
   String temp = "";
   PDDocument pdfdocument = PDDocument.load(f);

   ByteArrayOutputStream out = new ByteArrayOutputStream();
   OutputStreamWriter writer = new OutputStreamWriter(out);
   PDFTextStripper stripper = new PDFTextStripper();

stripper.writeText(pdfdocument.getDocument(), writer);

   pdfdocument.close();
   out.close();
   writer.close();
   byte[] contents = out.toByteArray();
   ts = new String(contents);
   System.out.println(f.getName() + "length is:" + contents.length
     + "\n");
  } catch (Exception e) {
   e.printStackTrace();
  } finally {
   return ts;
  }
}

public static void main(String[] args) throws Exception {

     File file = new File("d:/hello.pdf");
     System.out.println(Pdftext.getTxt(file));


/*
  File file = new File("d:/hello.pdf");
  FileInputStream fis = new FileInputStream(file);
  BufferedInputStream bis = new BufferedInputStream(fis);
  PDFParser parser = new PDFParser(bis);

  //
  parser.parse();
  PDDocument document = parser.getPDDocument();

PDFTextStripper stripper = new PDFTextStripper();
String s = stripper.getText(document);

  // ////////////
  document.close();// /////////
  bis.close();

  // //////////
  File ff = new File("d:/hello.pdf");
  ff.createNewFile();

if (ff.exists())

  {
   ff.createNewFile();
  }

FileWriter fw = new FileWriter(ff);

BufferedWriter bw = new BufferedWriter(fw);

bw.write(s);
bw.close();*/

}

ParsePDF.rar (3.1 MB)
下载次数: 184

分享到：

Java 解析 Word Word 中的表格 | Java 页面表格导出Word

2011-07-04 20:59
浏览 6317
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Java 解析 PDF， pdfbox读取PDF内容

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Java 解析 PDF， pdfbox读取PDF内容

评论

发表评论

相关推荐

Goole 地图 根据经纬度获取地址

百度地图根据地址获取经纬度

Java对象的序列化和反序列化实践

HttpClient 实现访问 HTTPS

实现一个线程池

通过 HttpClient 下载 文件

Java 文件拷贝

生成jar文件的方法

文件下载

根据Map 动态生成一个类 动态打印

Java实现类排序

web service(axis)例子HelloService步骤说明

解决一台机器同时运行多个Tomcat服务

Java 解析 Word Word 中的表格

Java 页面表格导出Word

Java 页面表格导出Word

利用lucene对整个数据库建立索引(lucene,SQL,JDBC)(

Java Mail 收发邮件

Java对象序列化

JavaScript 为Select添加节点

最近访客更多访客>>

Goole 地图根据经纬度获取地址

通过 HttpClient 下载文件

根据Map 动态生成一个类动态打印