
爬虫
CoCoNum
这个作者很懒,什么都没留下…
展开
-
简单明了的多线程
一、简单了解进程:进程是资源单位,每个进程至少有一个线程线程:执行单位说白了就是 进程是个工厂而线程是工厂当中的流水线二、理解当我们运行一个程序的时候都会有一个主线程def func(): for i in range(10): print("func",i)if __name__ == '__main__': func() for i in range(10): print("main",i) 这个很原创 2021-08-25 21:39:15 · 116 阅读 · 0 评论 -
Xpath入门
一、首先,先了解几个概念: XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。最初是用来搜寻 XML 文档的,但同样适用于 HTML 文档的搜索。所以在做爬虫时完全可以使用 XPath 做相应的信息抽取。二、安装lmxl模块:pip install lmxl 三、xpath解析<book> <id>1</id> <name>野花遍地香</原创 2021-08-10 11:34:45 · 410 阅读 · 3 评论 -
bs4解析-HTML语法
bs4解析比较简单,但是呢,首先你需要了解一丢丢的html知识.然后再去使用bs4去提取,逻辑和编写难度就会非常简单和清晰HTML(HyperTextMarkupLanguage)超文本标记语言,是我们编写网页的最基本也是最核心的一种语言.其语法规则就是用不同的标签对网页上的内容进行标记,从而使网页显示出不同的展示效果。<h1>我爱你</h1>上述代码的含义是在页面中显示"我爱你"三个字,但是我爱你三个字被"<h1>"和"</h1>...原创 2021-08-03 10:34:41 · 566 阅读 · 0 评论 -
已解决AttributeError: ‘set’ object has no attribute ‘items’
AttributeError: ‘set’ object has no attribute ‘items’出现这个问题,原因可能是定义的header有问题正确如下:header={“key”:“value”}如果是直接在请求数据中复制,很有可能会忽略键和值的冒号注意一下双引号的问题,是英文的...转载 2021-07-29 15:10:24 · 648 阅读 · 0 评论 -
re 模块
re模块那么接下来的问题是,正则我会写了,怎么在python程序中使用正则呢?答案是re模块re模块中我们只需要记住这么几个功能就足够我们使用了.|1.findall查找所有.返回listlst=re.findall("m","mailefomainimei!”)print(lst) #["m","m",'m"]lst=re.findall(r"\d+”,"5点之前.你要给我5000万”)print(lst) #['5','5000'〕2.se...原创 2021-07-25 21:50:46 · 90 阅读 · 0 评论 -
re 正则表达式
简介:正则表达式RegularExpression,正则表达式,一种使用表达式的方式对字符串进行匹配的语法规则.我们抓取到的网页源代码本质上就是一个超长的字符串,想从里面提取内容,用正则再合适不过了。正则的优点:速度快,效率高,准确性高。正则的缺点:新手上手难度有点儿高。不过只要掌握了正则编写的逻辑关系,写出一个提取页面内容的正则其实并不复杂正则的语法:使用元字符进行排列组合用来匹配字符串在线测试正则表达式https:/tool.oschina,netlregexl元字符:具有固定含义的.原创 2021-07-25 21:14:46 · 119 阅读 · 0 评论