
re
文章平均质量分 72
qq_15551663
这个作者很懒,什么都没留下…
展开
-
正则表达式
正则表达式1,字符“\bword\b”:单词的开头或者结尾.:匹配除了换行符的任意字符*:前面的内容可以连续重复任意次使得整个表达式被匹配.*:匹配任意数量不换行的字符\s:表示匹配任意空白字符,包括空格,制表符,换行符\S:匹配除\s以外^:匹配字符串的开始$:匹配字符串的结束\w:匹配数字,字母,下划线和汉字\d:数字\D:非数字2转义字符".","\","*"必...原创 2018-09-21 11:45:58 · 177 阅读 · 0 评论 -
XPath
XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。XPath 路径表达式XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。XPath 标准函数XPath 含有超过 100 个内建的函数。这些函数用于字符串值、数值、日期和时间比较、节点和 QName ...原创 2018-09-27 09:27:10 · 241 阅读 · 0 评论 -
爬虫
爬虫程序的流程下载页面-->提取页面中的数据-->提取页面中的链接-->URL去重Scrapy简介及安装在任意操作系统下,可以使用pip安装Scrapy,例如:$pip install scrapy为确认Scrapy已安装成功,首先在Python中测试能否导入Scrapy模块: >>> import scrapy ...原创 2018-09-30 14:15:21 · 285 阅读 · 0 评论 -
PyQuery
PyQuery是强大而又灵活的网页解析库,如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法那么,PyQuery就是你绝佳的选择。一、初始化方式,有三种,可以传入字符串,传入url,传入文件。字符串初始化html = '''<div> <ul> <li class="item...转载 2018-10-24 12:06:29 · 215 阅读 · 0 评论