- 浏览: 139769 次
- 性别:
- 来自: 上海
文章分类
最新评论
-
ling凌yue月:
Yes,it's good!
JavaScript实现ReplaceAll 方法 -
lj1214388:
请问楼主,我导入了struts-jquery-plugin 的 ...
Jquery Ui 日期控件
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.OutputStreamWriter;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
public class Pdftext {
public static String getTxt(File f) throws Exception {
String ts = "";
try {
String temp = "";
PDDocument pdfdocument = PDDocument.load(f);
ByteArrayOutputStream out = new ByteArrayOutputStream();
OutputStreamWriter writer = new OutputStreamWriter(out);
PDFTextStripper stripper = new PDFTextStripper();
stripper.writeText(pdfdocument.getDocument(), writer);
pdfdocument.close();
out.close();
writer.close();
byte[] contents = out.toByteArray();
ts = new String(contents);
System.out.println(f.getName() + "length is:" + contents.length
+ "\n");
} catch (Exception e) {
e.printStackTrace();
} finally {
return ts;
}
}
public static void main(String[] args) throws Exception {
File file = new File("d:/hello.pdf");
System.out.println(Pdftext.getTxt(file));
/*
File file = new File("d:/hello.pdf");
FileInputStream fis = new FileInputStream(file);
BufferedInputStream bis = new BufferedInputStream(fis);
PDFParser parser = new PDFParser(bis);
//
parser.parse();
PDDocument document = parser.getPDDocument();
PDFTextStripper stripper = new PDFTextStripper();
String s = stripper.getText(document);
// ////////////
document.close();// /////////
bis.close();
// //////////
File ff = new File("d:/hello.pdf");
ff.createNewFile();
if (ff.exists())
{
ff.createNewFile();
}
FileWriter fw = new FileWriter(ff);
BufferedWriter bw = new BufferedWriter(fw);
bw.write(s);
bw.close();*/
}
}
- ParsePDF.rar (3.1 MB)
- 下载次数: 184
发表评论
-
Goole 地图 根据经纬度获取地址
2012-12-10 22:40 798package com.jueyue; import jav ... -
百度地图根据地址获取经纬度
2012-12-10 21:31 8397package com.jueyue; import jav ... -
Java对象的序列化和反序列化实践
2012-12-10 19:52 623当两个进程在进行 ... -
HttpClient 实现访问 HTTPS
2012-11-08 11:24 0避免HttpClient的”javax.net.ssl.SSL ... -
实现一个线程池
2012-05-17 22:40 769public class SjgxrwStartQuest e ... -
通过 HttpClient 下载 文件
2011-10-27 13:49 968需要有的Jar; * commons-httpclie ... -
Java 文件拷贝
2011-10-26 18:26 758public static void saveFiles(S ... -
生成jar文件的方法
2011-10-13 01:20 679JAR --Java Archive File,顾 ... -
文件下载
2011-08-30 13:58 675public ModelAndView downloadFil ... -
根据Map 动态生成一个类 动态打印
2011-07-15 23:28 878import java.lang.reflect.Field; ... -
Java实现类排序
2011-07-12 16:07 862用Java实现类排序 如下步骤: 1 待排序的类实现 ... -
web service(axis)例子HelloService步骤说明
2011-07-12 11:36 9321.将axis1.1目录下webapps下的axis包拷贝到t ... -
解决一台机器同时运行多个Tomcat服务
2011-07-12 10:07 856如果不加任何修改,在一台服务器上同时运行两个Tomcat服务显 ... -
Java 解析 Word Word 中的表格
2011-07-04 22:15 4322import java.io.File; import ... -
Java 页面表格导出Word
2011-06-21 10:28 1738StringBuffer sb = new StringBuf ... -
Java 页面表格导出Word
2011-06-21 10:25 1292StringBuffer sb = new StringBuf ... -
利用lucene对整个数据库建立索引(lucene,SQL,JDBC)(
2011-06-16 23:38 1036导言: 如果要对整个数据库做精确查询或模糊查询,我们怎么才可 ... -
Java Mail 收发邮件
2011-06-15 22:24 828import javax.mail.Address;impor ... -
Java对象序列化
2011-03-09 22:47 700被序列化的类要implements Serializab ... -
JavaScript 为Select添加节点
2011-03-01 09:53 944function addOption(){ var ...
相关推荐
Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序。PDFBox的主要功能: Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 ...
最近有个项目是要求将PDF版的电子发票,解析成文本格式,要求各个名称都对应,刚开始用的是PDFTextStripper.getText(),发现不能准确的抓到自己想要的数据,后来想了个办法,使用Rectangle,画多个矩形,精准定位,...
pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包
利用pdfbox读取pdf内容 ,对于大部分未加过密或不是用图片生成的pdf能读出来. 引入pdfbox-app-2.0.12, IKVM.Runtime, IKVM.OpenJDK.Util, IKVM.OpenJKD.Text IKVM.OpenJKD.SwingAWT IKVM.OpenJKD.Core 后运行按照...
pdfbox 提取 pdf 中图片文件以及读取pdf的文本信息,压缩包中包含必备jar包
PDFBox(一个BSD许可下的源码开放项目)是一个为开发人员读取和创建PDF文档而准备的纯Java类库。它提供如下特性: 提取文本,包括Unicode字符。 和Jakarta Lucene等文本搜索引擎的整合过程十分简单。 加密/解密...
它支持创建、修改和解析PDF文件,并提供了许多实用的功能,如添加注释、加密文档等。 使用OpenPDF库处理PDF文档 OpenPDF是一个简单易用的Java库,用于处理PDF文档。它提供了一系列的API,可以轻松实现PDF文件的读取...
TrapRange:一种提取PDF文件中的表内容的方法 资料来源: : 更新 从命令行运行。 键入java -jar traprange.latest.jar -h获得帮助,或查看文件test-command-line.sh示例 介绍 表数据结构是文档中最重要的数据结构...
PDF转换: 通过对OFD的文档进行解析,使用 Apache Pdfbox生成并转换OFD中的元素为PDF内的元素实现PDF的转换。 图片转换: 通过对OFD的文档进行解析,采用java.awt绘制图片,支持转换为PNG、JPEG图片格式。 SVG矢量...
里面包含了pdfbox-1.8.2.jar fontbox-1.8.2.jar commons-logging-1.1.1.jar以及解析PDF的测试源码 PDFBox 0.7.3。PDFBox是一个开源的对pdf文件进行操作的库。 PDFBox-0.7.3.jar加入classpath。同时FontBox1.0.jar...
需要JDK8 延迟加载/解析PDF对象。 最初仅解析文档外部参照表/流,并检索到查找对象的信息,稍后请求PDF对象时,将使用查找信息来检索/解析对象。 当您只需要文档的一部分时(例如,您只需要信息字典或文档的页数)...
java版读取解析PDF文件内容,实例中自带最新版本PDFBox.jar
## PDF解析器通过Tom-Rous和Material File Picker实现PDFBox-Android API 该自述文件对工作进行了说明 PDFParser可以从文本版本的PDF中读取数据 它读取元数据和文件内容 以下是该应用的一些快照 #代码 公共类...