`

Java 解析 PDF, pdfbox读取PDF内容

 
阅读更多

import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.OutputStreamWriter;

import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;

public class Pdftext {
 public static String getTxt(File f) throws Exception {
  String ts = "";
  try {
   String temp = "";
   PDDocument pdfdocument = PDDocument.load(f);

   ByteArrayOutputStream out = new ByteArrayOutputStream();
   OutputStreamWriter writer = new OutputStreamWriter(out);
   PDFTextStripper stripper = new PDFTextStripper();

   stripper.writeText(pdfdocument.getDocument(), writer);

   pdfdocument.close();
   out.close();
   writer.close();
   byte[] contents = out.toByteArray();
   ts = new String(contents);
   System.out.println(f.getName() + "length is:" + contents.length
     + "\n");
  } catch (Exception e) {
   e.printStackTrace();
  } finally {
   return ts;
  }
 }

 public static void main(String[] args) throws Exception {
  
     File file = new File("d:/hello.pdf"); 
     System.out.println(Pdftext.getTxt(file));
  
  
/*
  File file = new File("d:/hello.pdf");
  FileInputStream fis = new FileInputStream(file);
  BufferedInputStream bis = new BufferedInputStream(fis);
  PDFParser parser = new PDFParser(bis);

  //
  parser.parse();
  PDDocument document = parser.getPDDocument();

  PDFTextStripper stripper = new PDFTextStripper();
  String s = stripper.getText(document);

  // ////////////
  document.close();// /////////
  bis.close();

  // //////////
  File ff = new File("d:/hello.pdf");
  ff.createNewFile();

  if (ff.exists())

  {
   ff.createNewFile();
  }

  FileWriter fw = new FileWriter(ff);

  BufferedWriter bw = new BufferedWriter(fw);

  bw.write(s);
  bw.close();*/

 }

}

分享到:
评论

相关推荐

    【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片

    Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序。PDFBox的主要功能: Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 ...

    JAVA 解析电子发票 解析PDF 精准读取想要的数据 源码+JAR包

    最近有个项目是要求将PDF版的电子发票,解析成文本格式,要求各个名称都对应,刚开始用的是PDFTextStripper.getText(),发现不能准确的抓到自己想要的数据,后来想了个办法,使用Rectangle,画多个矩形,精准定位,...

    java读取pdf的文字、图片、线条和对应坐标

    pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包

    pdfbox2.0.12读取pdf.zip

    利用pdfbox读取pdf内容 ,对于大部分未加过密或不是用图片生成的pdf能读出来. 引入pdfbox-app-2.0.12, IKVM.Runtime, IKVM.OpenJDK.Util, IKVM.OpenJKD.Text IKVM.OpenJKD.SwingAWT IKVM.OpenJKD.Core 后运行按照...

    pdfbox 解析pdf里的图片和文字

    pdfbox 提取 pdf 中图片文件以及读取pdf的文本信息,压缩包中包含必备jar包

    PDF解析需要的jar(pdfBox2.0)

     PDFBox(一个BSD许可下的源码开放项目)是一个为开发人员读取和创建PDF文档而准备的纯Java类库。它提供如下特性: 提取文本,包括Unicode字符。 和Jakarta Lucene等文本搜索引擎的整合过程十分简单。 加密/解密...

    Java实现PDF文档添加水印信息.pptx.pptx

    它支持创建、修改和解析PDF文件,并提供了许多实用的功能,如添加注释、加密文档等。 使用OpenPDF库处理PDF文档 OpenPDF是一个简单易用的Java库,用于处理PDF文档。它提供了一系列的API,可以轻松实现PDF文件的读取...

    traprange:(Java)从PDF文件提取表格内容的方法

    TrapRange:一种提取PDF文件中的表内容的方法 资料来源: : 更新 从命令行运行。 键入java -jar traprange.latest.jar -h获得帮助,或查看文件test-command-line.sh示例 介绍 表数据结构是文档中最重要的数据结构...

    OFD转换PDF、IMG、SVG、HTML工具JAR包

    PDF转换: 通过对OFD的文档进行解析,使用 Apache Pdfbox生成并转换OFD中的元素为PDF内的元素实现PDF的转换。 图片转换: 通过对OFD的文档进行解析,采用java.awt绘制图片,支持转换为PNG、JPEG图片格式。 SVG矢量...

    读取PDF的jar包

    里面包含了pdfbox-1.8.2.jar fontbox-1.8.2.jar commons-logging-1.1.1.jar以及解析PDF的测试源码 PDFBox 0.7.3。PDFBox是一个开源的对pdf文件进行操作的库。 PDFBox-0.7.3.jar加入classpath。同时FontBox1.0.jar...

    sambox:一个PDFBox分支,打算用作Sejda和PDFsam的PDF处理程序

    需要JDK8 延迟加载/解析PDF对象。 最初仅解析文档外部参照表/流,并检索到查找对象的信息,稍后请求PDF对象时,将使用查找信息来检索/解析对象。 当您只需要文档的一部分时(例如,您只需要信息字典或文档的页数)...

    PDFParser实例

    java版读取解析PDF文件内容,实例中自带最新版本PDFBox.jar

    PDFParser:PDF解析器通过Tom-Rous和Material File Picker实现PDFBox-Android API

    ## PDF解析器通过Tom-Rous和Material File Picker实现PDFBox-Android API 该自述文件对工作进行了说明 PDFParser可以从文本版本的PDF中读取数据 它读取元数据和文件内容 以下是该应用的一些快照 #代码 公共类...

Global site tag (gtag.js) - Google Analytics