lxml解析

FanJie 发布于 2010/11/09 05:42
阅读 1K+
收藏 2

用lxml解析一个大约800M的xml文件,结构是这样的:

<root>
  <element1> 
    <author> </author>
    <title> </title>
  </element1>
  <element2> 
    <author> </author>
    <author> </author>
    <title> </title>
  </element2>
  ……
</root>

我现在要做的事情是这样的:我要统计每一个author的所有合作者与该author合作的次数。

我是这样想的:首先,我要构建一个嵌套字典,dic = {'title':author, 'title':author......}导出数据,然后在这个嵌套字典里面做统计。但是这里有一个问题,我该怎么判断边界呢?也就是说,我该怎么判断author是属于哪个title的?而且,我觉得这个方法很麻烦,不知道有没有更简单的方法,谢谢!

加载中
返回顶部
顶部