關於分詞系統與html結構拆解

鄭煒民 发布于 2012/09/16 17:33
阅读 129
收藏 0

@cevin 你好,想跟你请教个问题:

妳好,有看到您寫的一些文章
看起來您似乎對分詞系統方面相當有研究
有兩個問題想向您請教

1.請問在去除html tag方面
如何處理損壞的tag?
(有看到您一篇文章,可是沒有具體說明)
http://www.oschina.net/code/snippet_95848_11048

2.同上,當文檔結構較大時
使用array方式來處理時
似乎會有效能問題
不知道這部分如何處理?

應該說,其實是因為作分詞時會需要分析結構
對於一些結構複雜的內容會損耗許多無謂的計算效能
能否有其他方式有效處理?

加载中
0
cevin
cevin
@iamxyz 首先,不明白你的意思。你是想要把类似HTML的文章内容截成N个页面然后分页展示?还是要压缩HTML输出?
cevin
cevin
= =不明白他想干什么
IdleMan
IdleMan
第一个问题 是说的如果标签没有正常关闭,如何处理;第二个问题是性能问题吧。htmlparse貌似有php版,不知道它怎么处理的,LZ可以了解下。
0
IdleMan
IdleMan
正则表达式性能不咋的啊
返回顶部
顶部