爬虫
离落想AC
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫多个基础实例
输入名字爬取百度搜索的网页源码(初级)# -*- coding: UTF-8 -*-# @Time : 2021/5/31 17:13# @Author : 李如旭# @File :111.py# @Software: PyCharmimport requestsname = input("请输出要搜索人的名称:")url = "https://www.baidu.com/s?wd=name"head = {"User-Agent": "Mozilla/5.0 (Windows原创 2021-05-31 22:05:37 · 307 阅读 · 0 评论 -
正则表达式
正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。原创 2021-05-28 20:08:20 · 283 阅读 · 0 评论 -
xpath应用(二)站长网站简历下载爬取
写的时候遇到个问题,让我尝试了一下午都没有成功。问题:我想用https://sc.chinaz.com/jianli/主网站爬取下载简历,不过我在爬取的过程中一直出现错误。换成了子网站就可以了https://aspx.sc.chinaz.com/query.aspx?keyword=%E5%85%8D%E8%B4%B9&classID=864;两个网站的差距:主网站有的东西得付费下载。子网站东西全是免费的。然后我就尝试了一下午用尽各种办法去筛选。最后我臣服了。我是菜狗!我不会!原创 2021-05-17 17:26:47 · 374 阅读 · 5 评论 -
xpath应用(一)58同城二手房网页房屋信息爬取
话不多说,上代码!!!# -*- coding: UTF-8 -*-# @Time : 2021/5/17 10:25# @Author : 李如旭# @File :58tc.py# @Software: PyCharmimport requestsfrom lxml import etreeif __name__=='__main__': #获取数据 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 1原创 2021-05-17 17:18:47 · 547 阅读 · 2 评论 -
BeautifulSoup4的学习(二)
4、遍历文档树① .contents:获取Tag的所有子节点,返回一个list# tag的.content 属性可以将tag的子节点以列表的方式输出print(bs.head.contents)# 用列表索引来获取它的某一个元素print(bs.head.contents[1])效果实现:② .children:获取Tag的所有子节点,返回一个生成器for child in bs.body.children: print(child)效果实现:③ .descendant原创 2021-05-14 19:52:23 · 774 阅读 · 2 评论 -
BeautifulSoup4的学习(一)
BeautifulSoup41、BeautifulSoup4简介BeautifulSoup4和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐使用lxml 解析器。Beautiful Soup自动将输入文档转换为Un原创 2021-05-14 19:03:51 · 260 阅读 · 0 评论 -
urllib.request 的学习
urllib.request的应用ps:此次学习都没封装自己的信息,光是为了学习命令。获取一个get请求测试网页:http://www.baidu.com# -*- coding: UTF-8 -*-# @Time : 2021/5/11 20:27# @Author : 李如旭# @File :testUrllib.py# @Software: PyCharmimport urllib.requestresponse = urllib.request.urlopen("http原创 2021-05-11 21:41:59 · 197 阅读 · 1 评论 -
2021-05-11
爬取药监局网页# -*- coding: UTF-8 -*-# @Time : 2021/5/9 19:13# @Author : 李如旭# @File :yaopon.py# @Software: PyCharmimport requestsimport jsonif __name__ == '__main__': url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList'原创 2021-05-11 19:26:47 · 114 阅读 · 0 评论 -
2021-05-11
百度图片抓取# -*- coding: UTF-8 -*-# @Time : 2021/5/9 19:13# @Author : 李如旭# @File :yaopon.py# @Software: PyCharmimport reimport requestsheaders = { 'Access-Control-Allow-Credentials': 'true', 'Connection': 'keep-alive', 'Cookie'原创 2021-05-11 19:25:22 · 200 阅读 · 0 评论 -
2021-05-09
urllib.request用法# -*- coding: UTF-8 -*-# @Time : 2021/5/9 17:33# @Author : 李如旭# @File :t1.py# @Software: PyCharmimport urllib.requestresponse =urllib.request.urlopen("http://www.baidu.com/")print(response.read().decode('utf-8'))效果实现...原创 2021-05-09 17:43:54 · 78 阅读 · 1 评论 -
2021-05-08
爬虫爬取kfc餐厅地址爬取kfc餐厅地址URL:http://www.kfc.com.cn/kfccda/storelist/index.aspximport requestsif __name__ == '__main__': url='import requests'if __name__ == '__main__': url='http://www.kfc.com.cn/kfccda/storelist/index.aspx/get' header ={ 'User-Ag原创 2021-05-08 21:46:35 · 101 阅读 · 0 评论
分享