
爬虫
文章平均质量分 77
??orz...
这个作者很懒,什么都没留下…
展开
-
【转】爬虫常用正则、re.findall 使用
爬虫常用正则爬虫经常用到的一些正则,这可以帮助我们更好地处理字符。正则符单字符. : 除换行以外所有字符[] :[aoe] [a-w] 匹配集合中任意一个字符\d :数字 [0-9]\D : 非数字\w :数字、字母、下划线、中文\W : 非\w\s :所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]\S : 非空白数量修饰* : 任意多次 >=0+ : 至少1次 >=1? : 可有可无 0次或者1次{m} :固定m次转载 2020-09-21 13:52:30 · 307 阅读 · 0 评论 -
爬取链家网房源信息
案例代码如下,爬取链家二手房房源信息1.链家做了反爬处理,可以大量爬取,建议使用代理2.需要爬取多个区的信息,可以将区名放在list中,逐个取出,把url中的’pudong’做成一个变量,通过传参的方式遍历所有各个区import requestsimport reclass housespider(object): def __init__(self,*pg): self.url = 'https://sh.lianjia.com/ershoufang/pudong/'原创 2020-09-17 15:26:29 · 939 阅读 · 0 评论 -
监管雷达
监控证监会公告、证监会令、证券业协会自律规则更新信息,通过企业微信机器人推送最新内容到终端。源代码如下:from bs4 import BeautifulSoupfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsimport requestsimport reimport timeimport osclass CsrcSpider(object): def __i原创 2020-09-16 16:43:17 · 288 阅读 · 0 评论