
python
文章平均质量分 82
梦独吟
这个作者很懒,什么都没留下…
展开
-
Python3爬虫实战 — 模拟登陆优快云并自动保存文章
Python3爬虫实战 — 模拟登陆优快云并发布或保存文章爬虫时间:2020-08-31请求链接:https://passport.bilibili.com/login实现目标:模拟登陆优快云,自动保存文章涉及知识:自动化测试工具 Selenium 的使用完整代码:https://github.com/dateolive/python-/tree/master/bilibili学习过程中的爬虫GitHub库:https://github.com/dateolive/python-爬虫思原创 2020-08-31 22:51:24 · 1020 阅读 · 0 评论 -
Python3爬虫实战【点触验证码】 — 模拟登陆bilibili
Python3爬虫实战【点触验证码】 — 模拟登陆bilibili爬虫时间:2020-08-30 请求链接:https://passport.bilibili.com/login 实现目标:模拟登陆哔哩哔哩涉及知识:点触验证码的攻克、自动化测试工具 Selenium 的使用,超级鹰打码平台的使用完整代码:https://github.com/dateolive/python-/tree/master/bilibili学习过程中的爬虫GitHub库:https://github.com/dateol原创 2020-08-30 21:13:41 · 4964 阅读 · 8 评论 -
高考期间爬取大学和专业信息的一些爬虫
1.专业热度的爬虫import jsonimport requestsimport timeimport numpy as npimport pandas as pd#每页获取数据#https://api.eol.cn/gkcx/api/?access_token=&keyword=&level1=1&page=1&request_type=1&signsafe=&size=20&sort=view_total&uri=apida原创 2020-08-25 19:37:03 · 2128 阅读 · 0 评论 -
python爬虫模拟登录并爬取 GitHub
模拟登录并爬取GitHub 实现模拟登录GitHub并获取页面信息,如好友动态、个人信息等内容。技术路线:requests库 pyquery库1.先定义一个Login类,并初始化一些变量,使用requests库的session开启一个会话,且会自动处理cookiesdef __init__(self): self.headers = { 'Referer': 'https://github.com/', 'User-Agent': 'Mozilla/5.0原创 2020-08-25 19:33:52 · 1463 阅读 · 0 评论 -
python爬虫学习笔记(一)——requests库
一.HTTP基本原理1.URL和URIURL是URI的子集,URI还包括URN,在互联网中,我们一般的网页链接可以被称为URL或者URI,大多数人称为URL。2.超文本我们平常在网站浏览的网页就是超文本解析而成的,这些源代码是一系列的HTML代码,如img:显示图片,p:指定显示段落等。HTML可以被称为超文本。3.http和httpsHTTP,Hypertext Transfer Protocol,超文本传输协议HTTP是一个基于“请求与响应”模式的、无状态的应用层协议HTTP协议采用UR原创 2020-08-25 18:45:56 · 1576 阅读 · 0 评论 -
python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)
2020年最新淘宝商品比价定向爬取功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。理解:淘宝的搜索接口翻页的处理技术路线:requests re程序的结构设计步骤1:提交商品搜索请求,循环获取页面步骤2:对于每个页面,提取商品名称和价格信息步骤3:将信息输出到屏幕上爬取时淘宝模拟登录即可爬取相关信息...原创 2020-05-22 11:52:48 · 2108 阅读 · 0 评论 -
python爬虫学习笔记(二)——Beautiful Soup库
中国大学排名top100的定向爬虫实例最好大学网:http://www.zuihaodaxue.cn/zuihaodaxuepaiming-zongbang-2020.html功能描述输入:大学排名URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)技术路线:requests--bs4定向爬虫:仅对输入URL进行爬取,不扩展爬取程序的结构...原创 2020-05-22 19:17:13 · 1065 阅读 · 0 评论 -
python爬虫学习笔记(三)——re库
python爬虫学习——re库实战——淘宝商品比价定向爬取实战——股票数据定向爬取#正则表达式的概念正则表达式是用来简介表示一组字符串的表达式,是通用的字符串简洁表达框架正则表达式在文本处理中十分常用表达文本类型的特征(病毒,入侵等)同时查找或替换一组字符串匹配字符串的全部或部分正则表达式的语法:正则表达式语法由字符和操作符组成...原创 2020-05-07 23:46:54 · 634 阅读 · 0 评论 -
python实战——股票数据Scrapy爬虫(成功爬取)
股票数据scrapy爬虫功能描述技术路线:scrapy目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中数据网站的确定获取股票列表: 东方财富网:http://quote.eastmoney.com/stock_list.html获取个股信息: 腾讯证券:http://gu.qq.com/单个股票: ht...原创 2020-05-24 09:48:25 · 1656 阅读 · 0 评论 -
python爬虫学习笔记(三)——股票数据定向爬虫
“股票数据定向爬虫”实例介绍 功能描述目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中技术路线:requests bs4 re候选数据网站的选择新浪股票:http://finance.sina.com.cn/stock/(数据保存在js中,本源码无法爬取)百度股票:https://g...原创 2020-05-22 22:31:35 · 1374 阅读 · 0 评论 -
python爬虫学习笔记(四)——初学scrapy框架
scrapy框架初学scrapy框架,做下笔记#scrapy爬虫框架结构(一).爬虫框架:爬虫框架是实现爬虫功能的一个软件结构和功能组价集合 爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫(二).“5+2”结构#scrapy爬虫框架解析Engine模块(不需要用户修...原创 2020-05-25 22:44:07 · 739 阅读 · 0 评论 -
python+mysql爬取猫眼top100
python爬取猫眼top100,将数据保存在mysql中最近学了下php和mysql,本来想要做下小项目,实现python爬虫存储数据在mysql中,通过异步交互,将数据展示在html页面中,但是面临着期末考,所以异步交互那部分等到期末考试结束后再来补充实现吧~MySQL数据库操作创建maoyan数据库——create database maoy...原创 2020-06-14 15:18:38 · 778 阅读 · 0 评论 -
最新北京理工大学Python网络爬虫实战训练
2020年5月17日中国大学排名top100的定向爬虫(成功)https://www.datealive.top/2020/05/pypc2.html2020年5月21日最新爬取淘宝商品比价信息(成功)https://www.datealive.top/2020/05/pythonxz.html2020年5月22日股票数据定向爬虫(成功)https://www.datealive.top/2020/05/python-sz3-gp.html2020年5月24日股票数据定向scrapy爬虫(成功)原创 2020-06-01 08:13:31 · 881 阅读 · 0 评论 -
python爬虫笔记(一)
一.HTTP基本原理1.URL和URIURL是URI的子集,URI还包括URN,在互联网中,我们一般的网页链接可以被称为URL或者URI,大多数人称为URL2.超文本我们平常在网站浏览的网页就是超文本解析而成的,这些源代码是一系列的HTML代码,如img:显示图片,p:指定显示段落等。HTML可以被称为超文本3.http和httpsHTTP,Hypertext Transfer Protocol,超文本传输协议HTTP是一个基于“请求与响应”模式的、无状态的应用层协议HT原创 2020-06-01 08:02:46 · 845 阅读 · 0 评论