如何识别文章的地域特征?

踏雪凌冰 发布于 2015/05/07 13:57
阅读 172
收藏 0

我能想到的比较简单的方法就是

建立一个地域名称词库

从标题中直接匹配

然后从文章内容统计词的idf信息,再看是否在词库中,根据最后的权重判断

当然这种简单的方法虽然处理了大部分内容,

但是也存在着一定的风险。

比如一篇文章讲南锣鼓巷,根本没说北京,但是这个明显可以认为具备明显的地域特征

再比如一篇文章讲北京的兰州拉面馆,结果文章中的兰州这个词出现频率够高,导致这个文章被划定了兰州的地域特征。

那么 大家有没有什么想法?

不需要代码,只要有些想法就行了。

可以靠谱也可以不靠谱,我想听听大家的意见。

加载中
0
Maxint64
Maxint64

有标注好的训练数据的话 可以用naive bayes或svm之类的分类器试试 

另外脑洞一下……不知道用lda能不能从文本中得出词之间在地域上的关系 比如北京和南锣鼓巷同时出现在某个topic里 筛选出这种topic 然后以地名为key 其它词的集合为value的关系映射 类似 地名->{特征...} 这样 然后可以用这个关系从文本的非地名词中提取地域信息

Maxint64
Maxint64
回复 @踏雪凌冰 : 嗯……直接用lda去找带地域信息的topic跟撞大运一样 之前看到过有种叫labeled-lda的模型 结合了类别信息 没深入了解过 不知道效果怎么样
踏雪凌冰
踏雪凌冰
训练好的数据就是地域名称 但是没有那么全面 还有就是别名的问题 lda不知道能不能处理那个映射关系 可能需要足够的训练集才行 这种样本不好找
返回顶部
顶部