
寒假爬虫社团课
?? YJ???????
这个作者很懒,什么都没留下…
展开
-
社团课Day2-数据解析:Xpath、BeautifulSoup、re正则表达
数据解析-Xpath、BeautifulSoup4、re正则表达式一、Xpath数据解析XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言。最初是用来搜寻XML文档的,但同样适用于HTML文档的搜索。所以在做爬虫时完全可以使用 XPath做相应的信息抽取1.Xpath概览XPath的选择功能十分强大,它提供了非常简洁明了的路径选择表达式。另外,它还提供了超过100个内建函数,用于字符串串、数值、时间的匹配以及节点、序列列的原创 2020-06-22 21:23:24 · 566 阅读 · 0 评论 -
社团课Day1-网络爬虫介绍/Requests库的使用
爬虫1.什么是爬虫通俗解释 : 通过Python(爬虫代码), 下载互联网上的数据到本地, 并且提取出我们需要的信息的过程就是就是爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,或者经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。二十年前是一种黑客行为分类普通爬虫、多线程爬虫、异布爬虫企业/对大型网站:Scrapy框架、Celery分布式还可以学习到:计算机网络、面向对象Web与HTTP协议介绍超文本传输协议(Hypertext Tra原创 2020-06-21 21:11:38 · 844 阅读 · 1 评论