
爬虫基础
冥想10分钟大师
持续的坚持学习才是真
展开
-
Python学习之爬虫Ajax新浪
很多网页利用JavaScript实现网页的异步加载,在网页源码中并不能看到你想爬取的信息,向下滑动,网页并不重新加载,而是一直出现新的内容。以新浪为例,微博个人主页就是使用异步加载,向下滑动,出现新内容,网页不重新加载。找个微博账号进入他的主页,不用登陆!!!https://weibo.com/u/5012147247?refer_flag=1001030103_&is_all=1...原创 2019-04-08 19:55:06 · 251 阅读 · 0 评论 -
Python学习之爬虫Ajax
今日头条网页数据也是异步加载的,搜索:数据,F12,向下翻页,在XHR查找Ajax请求,果然找到了它,网页规律url中count=从20,40,60变化,一个for循环搞定,其他的就和普通网页一样了,json格式的网页更好解析import requestsdef get_page(): for i in range(20,120,20): #构建url ...原创 2019-04-08 20:00:03 · 390 阅读 · 0 评论 -
Python学习之爬虫模拟登录GitHub
之前一直没搞明白,但是崔大神的书值得一看,看了就懂谷歌浏览器F12,随便输入账户、密码登录https://github.com/login,找到POST请求的那个请求,在Headers信息中获取登录链接,查看post_data,cookie可以用session解决,其他数据固定,只差一个数据authenticity_token这个数据在请求登录页面时得到,查看登录页面源码,ctrl+F查找au...原创 2019-04-08 22:11:07 · 367 阅读 · 0 评论 -
Python爬虫基础
HTTP超文本传输协议,服务器端口80;HTTPS是HTTP的加密版本,在HTTP加入ssh,服务器端口443url,统一资源定位符scheme://host:port/path/?query-striing=xxx#anchorscheme:代表的是访问的协议,一般为http或者https以及ftp等。host:主机名,域名,比如www.baidu.com。port:端口号。当你访问一...原创 2019-03-30 09:24:33 · 298 阅读 · 0 评论 -
Python学习之selenium元素查找、鼠标键盘操作、等待、代理
导包原创 2019-03-25 17:47:52 · 450 阅读 · 0 评论 -
Python爬虫基本框架
想想Python的import导包,很方便,爬虫也可以自己建立模块,把网址给他,模块解析返回网页信息,在爬取大型网页时很方便。安装我们写爬虫程序的内容,可以分为URL管理器、HTML下载器、HTML解析器、数据存储器、爬虫调度器URL管理器class UrlManager(): #初始化连个空集合 def __init__(self): self.new_url...原创 2019-03-28 12:15:51 · 355 阅读 · 0 评论 -
HTML解析之BeautifulSoup
使用from bs4 import BeautifulSoup# 创建BeautifulSoup对象soup = BeautifulSoup(html,'lxml',from_encoding='utf-8')对象种类1、tag即标签,有属性name、attributesoup.p查找是第一个符合要求标签,是第一个!!获取标签名soup.title.name获取p标签的属性cla...原创 2019-03-27 23:27:42 · 199 阅读 · 0 评论 -
Python学习之爬虫模拟登录新浪微博
首先感谢崔大神的书让我对模拟登录了解更细致,其次感谢位博主,模仿他们的帖子1、2最后终于登录成功第一步谷歌浏览器打开F12,登录一下网页,看请求1预登陆,网页内容有post登录需要的信息用户名需要用base64加密,网页地址需要用户名、时间戳构建self.su = base64.b64encode(self.user.encode()).decode()url = 'https://l...转载 2019-04-14 20:45:46 · 1663 阅读 · 2 评论