python xpath获取页面注释的方法

yipeiwu_com5年前Python基础

版本信息:

python 2.7.12

lxml 3.8.0

from lxml import etree
 
html_str = """
<div id="box1">this from blog.csdn.net/lncxydjq , DO NOT COPY!
  <div id="box2">*****
    <!--can u get me, bitch?-->
  </div>
</div>
"""
 
html = etree.HTML(html_str)
 
print html.xpath('//div[@id="box1"]/div/node()')[1]
print type(html.xpath('//div[@id="box1"]/div/node()')[1])
print html.xpath('//div[@id="box1"]/div/node()')[1].text
 
"""output:
<!--can u get me, bitch?-->
<type 'lxml.etree._Comment'>
can u get me, bitch?
"""

以上这篇python xpath获取页面注释的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

Python正则表达式和re库知识点总结

正则表达式是定义搜索模式的字符序列。通常这种模式被字符串搜索算法用于字符串上的“查找”或“查找和替换”操作,或者用于输入验证。 1. 正则表达式的语法 . 表示任何单个字符 [] 字符集...

python实现的生成随机迷宫算法核心代码分享(含游戏完整代码)

完整代码下载:http://xiazai.jb51.net/201407/tools/python-migong.rar 最近研究了下迷宫的生成算法,然后做了个简单的在线迷宫游戏。游戏地...

Python子类继承父类构造函数详解

如果在子类中需要父类的构造方法就需要显式地调用父类的构造方法,或者不重写父类的构造方法。 子类不重写 __init__,实例化子类时,会自动调用父类定义的 __init__。 cl...

在Python运行时动态查看进程内部信息的方法

接前两篇“运行时查看线程信息”的博客,我在想,既然我可以随时打印线程信息,那么我是不是可以随时打印进程内部的其它信息呢?比如,实时查看一些对象属性等,这样可以帮助我们在不重新启动应用程序...

Python对列表中的各项进行关联详解

Python对列表中的各项进行关联详解

前言 我们在日常文本处理中,经常会将数据结构保存在列表中,如果将列表中的项进行关联,创建我们想要的字典结构,存取就会十分方便! 示例详解 比如说将List = ['Jerry 20 m...