Java 解析 Word Word 中的表格 -

snowdymy

浏览: 139910 次
性别:
来自: 上海

最近访客更多访客>>

angel20082008

五音谷

songbj

ericzhang19840

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Java 解析 Word Word 中的表格

博客分类：

Java 网页抓取
Java

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.usermodel.Paragraph;
import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.hwpf.usermodel.Table;
import org.apache.poi.hwpf.usermodel.TableCell;
import org.apache.poi.hwpf.usermodel.TableIterator;
import org.apache.poi.hwpf.usermodel.TableRow;

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

import org.apache.poi.poifs.filesystem.POIFSFileSystem;

public class ExportDocImpl
{
    public void testWord(){
        try{
            FileInputStream in = new FileInputStream("D:\\2003.doc");//载入文档
           POIFSFileSystem pfs = new POIFSFileSystem(in);
            HWPFDocument hwpf = new HWPFDocument(pfs);
            Range range = hwpf.getRange();//得到文档的读取范围
            TableIterator it = new TableIterator(range);
           //迭代文档中的表格
            while (it.hasNext()) {
                Table tb = (Table) it.next();
                //迭代行，默认从0开始
                for (int i = 0; i < tb.numRows(); i++) {
                    TableRow tr = tb.getRow(i);
                    //迭代列，默认从0开始
                    for (int j = 0; j < tr.numCells(); j++) {
                        TableCell td = tr.getCell(j);//取得单元格
                        //取得单元格的内容
                        for(int k=0;k<td.numParagraphs();k++){
                            Paragraph para =td.getParagraph(k);
                            String s = para.text();

                        } //end for
                    }   //end for
                }   //end for
            } //end while
        }catch(Exception e){
            e.printStackTrace();
        }
    }//end method

    public static void main(String[] args){
    ExportDocImpl ExportDocImpl = new ExportDocImpl();
    ExportDocImpl.testWord1();
    }




           public void testWord1(){
           try {
            //word 2003：图片不会被读取
            InputStream is = new FileInputStream(new File("D:\\2003.doc"));
                  WordExtractor ex = new WordExtractor(is);
                  String str1 = ex.getText();
                  str1 = str1.replaceAll("", ";");
                  String text2003 = str1;
                  System.out.println(text2003);

            //word 2007 图片不会被读取，表格中的数据会被放在字符串的最后
            OPCPackage opcPackage = POIXMLDocument.openPackage("D:\\2007.docx");
                  POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
                  String str = extractor.getText();
                  str = str.replaceAll(" ", ";");
                  String text2007 = str;
                  System.out.println(text2007);

        } catch (Exception e) {
                  e.printStackTrace();
        }
    }
}

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.openxml4j.opc.OPCPackage;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

/**
* POI 读取 word 2003 和 word 2007 中文字内容的测试类<br />
* @createDate 2009-07-25
* @author Carl He
*/
public class ParseTable {
    public static void main(String[] args) {
        try {
            //word 2003：图片不会被读取
              InputStream is = new FileInputStream(new File("d:\\2003.doc"));
            WordExtractor ex = new WordExtractor(is);
            String text2003 = ex.getText();
            System.out.println(text2003);

            //word 2007 图片不会被读取，表格中的数据会被放在字符串的最后
            OPCPackage opcPackage = POIXMLDocument.openPackage("d:\\2007.docx");
            POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
            String text2007 = extractor.getText();
            System.out.println(text2007);

        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;

import org.apache.poi.hwpf.extractor.WordExtractor;

public class ParseWord {

public static void main(String[] args) {
  File file = new File("d:\\hello.doc");
  try {
   FileInputStream fis = new FileInputStream(file);
   WordExtractor wordExtractor = new WordExtractor(fis);
   System.out.println(wordExtractor.getText());
  } catch (FileNotFoundException e) {
   e.printStackTrace();
  } catch (IOException e) {
   e.printStackTrace();
  }
}
}

分享到：

解决一台机器同时运行多个Tomcat服务 | Java 解析 PDF， pdfbox读取PDF内容

2011-07-04 22:15
浏览 4324
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Java 解析 Word Word 中的表格

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Java 解析 Word Word 中的表格

评论

发表评论

相关推荐

Goole 地图 根据经纬度获取地址

百度地图根据地址获取经纬度

Java对象的序列化和反序列化实践

HttpClient 实现访问 HTTPS

实现一个线程池

通过 HttpClient 下载 文件

Java 文件拷贝

生成jar文件的方法

文件下载

根据Map 动态生成一个类 动态打印

Java实现类排序

web service(axis)例子HelloService步骤说明

解决一台机器同时运行多个Tomcat服务

Java 解析 PDF， pdfbox读取PDF内容

Java 页面表格导出Word

Java 页面表格导出Word

利用lucene对整个数据库建立索引(lucene,SQL,JDBC)(

Java Mail 收发邮件

Java对象序列化

JavaScript 为Select添加节点

最近访客更多访客>>

Goole 地图根据经纬度获取地址

通过 HttpClient 下载文件

根据Map 动态生成一个类动态打印