如何抽取office文件中的内容进行碎片化存储?

chace0120 发布于 2015/06/23 09:38
阅读 343
收藏 0
Java抽取office文件(word、ppt、excel)中的内容(例如标题、图片、表格等),然后进行碎片化存储,征求可行的技术方案。请考虑到03和07不同的文件格式,POI是个不错的选择,如果还有其他更好的选择请一同分享下。
加载中
1
一只死笨死笨的猪
chace0120
chace0120
好吧。。。Jacob不能在Linux下起作用吧。。。
chace0120
chace0120
回复 @一只死笨死笨的猪 : 谢谢!
一只死笨死笨的猪
一只死笨死笨的猪
回复 @Angerbaby : 不仅仅是转成PDF,还可以转成任何Word可以转化的文件,比如HTML;之前做过将word文档转化为HTML,然后抽取其中的节点,按照段落以及父子级段落关系存储到Mysql中,然后将这些Html片段拖拽到富文本编辑器中进行编辑。
chace0120
chace0120
这个是将office文件转为pdf吧?
返回顶部
顶部