Python中利用xpath解析HTML的方法 在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息。 首先,我们需要安装一个支持xpath的python库。目前在libxml2的网站上被推荐的python binding是lxml,也有beautifulsoup,不嫌麻烦的话还可以自己用正则表达式去构建,本文以lxml为例讲解。 假设有如下的HTML文档:

text

直接使用lxml处理: import codecs from lxml import etree f=codecs.open("ceshi.html","r","utf-8") content=f.read() f.close() tree=etree.HTML(content) etree提供了HTML这个解析函数,现在我们可以直接对HTML使用xpath了,是不是有点小激动,现在就尝试下吧。 在使用xpath之前我们先来看看作为对照的jQuery和RE。 在jQuery里要处理这种东西就很简单,特别是假如那个ul节点有id的话(比如是