
爬虫
文章平均质量分 60
Joovo
成事不说,遂事不谏,既往不咎。
展开
-
Python爬虫实现[中国最好大学排名2016]
中国最好大学排名网 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 输入: url,num(打印行数)输出: 三个函数:#获取源码def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_s...原创 2018-03-21 21:06:45 · 2360 阅读 · 0 评论 -
Python链家租房信息爬虫
爬取链家某地区(杭州,南京等)租房信息爬虫。链家只开放了前100页供查看,每夜30条,因此实际上只爬取了前3000条信息。对于项目需求需要分析某地区某段时间内发布的租房信息,爬取对应的名称name,地区dist,面积square,价格price,备注detail,用pandas.DataFrame.to_excel()保存为 excel 文件。并发下载使用futures.ThreadPoolEx...原创 2019-03-11 09:31:36 · 2831 阅读 · 0 评论 -
有道词典爬虫
文章目录有道词典爬虫代码实现有道词典爬虫构造url对单个单词的释义及例句进行爬虫。查询界面不需要登陆操作,用 GET 方法获取源代码。对于上图所示的单词查询界面,简单地对单词’scene’ 进行替换即可。很久没有用xpath解析,有点生疏。从审查元素可以看到每个例句都被<div class='ol'>包含 ,遍历他的子节点即可。代码实现import requests...原创 2018-12-11 18:50:56 · 1895 阅读 · 0 评论 -
爬取vjudge的比赛代码和相关信息
文章目录概述开发过程代码结构源代码怎样使用github 地址:https://github.com/Joovo/vjudge_spider概述爬虫的目的是作为 contest 管理员需要统计 contest 下参赛者的错误信息并下载所有参赛者代码。代码实现的是分题号分别统计 Wrong Answer 的所有代码,编号及简要信息,稍加修改即可实现爬取其他具体信息,如代码长度,运行时间等等....原创 2018-12-09 02:57:39 · 2737 阅读 · 3 评论 -
concurrent.futures 并发爬取 wos 的部分专利号和施引专利
工作上需要爬取 wos 的一些专利号和施引专利,做成了一个 excel 表格。施引专利在系统默认的导出里是没有的。第一次实际运用了concurrent.futures 来处理并发下载,确实很简单。一开始用 scrapy 框架貌似连接非常慢,不知道什么原理,三次连接两次超时,于是手写了一个用很多 try/except 结构的 spider 。一定要记得写日志和异常处理!!!!全文基本上没有很难...原创 2018-10-06 22:27:19 · 1156 阅读 · 0 评论 -
scrapy 爬取 arxiv.org 论文
和同学想要建立一个检索 arxiv.org 论文的网站,这是一个 demoGithub地址:https://github.com/Joovo/Arxiv鸽了好久把博客补了,主要实战里熟练了 scrapy 的操作:scrapy shell 检验 xpath 正确性reponse.xpath().extract() 转换为字符串列表str.strip()处理数据获取 xpath 的子节点...原创 2018-10-06 14:53:00 · 2788 阅读 · 2 评论 -
post 方法爬取知网硕博类论文
1.概述2.准备工作2.1 操作系统2.2 开发工具3.逻辑分析3.1 页面分析3.2 源码分析3.3 Fiddler 调试4.编写代码5.服务器托管6.生成结果7.后记知网硕博类论文url爬虫1.概述 手写一个对知网的所有的硕博类论文的 URL 分地区和学科进行爬取的爬虫,将爬虫托管在服务器上运行,并将得到的初步结果保存在 ...原创 2018-05-23 22:59:40 · 2682 阅读 · 7 评论 -
pymongo 的几个常用操作
学到了 MongoDB Mongo 是一个基于分布式文件存储的数据库,由 C++ 编写,旨在为 Web 应用提供可拓展的高性能数据存储解决方案.它介于关系数据库和非关系数据库之间,在非关系数据库中最像关系数据库. 首先在 pycharm 中安装 pymongo 库 首先每次使用数据库前要打开 MongoDB 服务,即在文件目录下分别执行 mongod , mongo 命令 且关闭数据库...原创 2018-06-03 01:49:46 · 877 阅读 · 0 评论 -
[转]爬虫入门
转载链接: https://blog.youkuaiyun.com/jgzquanquan/article/details/78521799目录(?)[+]爬虫入门概述Requests库介绍1Requests库主要有7个主要方法1requestsrequest 构造一个请求支撑以下各方法的基础方法2requestsget 获取HTML网页的主要方法对应于HTTP的GET3requestshead 获取H...转载 2018-04-21 10:59:30 · 466 阅读 · 0 评论 -
Urllib库和URLError库的异常处理
Urllib 库是 Python 一个用于操作 URL 的模块, Python3 中合并了 Python2.X 中的 Urllib2 和 Urllib 库,成为 Urllib 库通过Urllib爬取网页import urllib.requestfile=urllib.request.urlopen("http://www.baidu.com")data=file.read()d...原创 2018-04-30 23:52:27 · 1496 阅读 · 0 评论 -
Web of Science爬虫[模拟浏览器]
学习了另一位写爬虫的博主 Web of Science爬虫实战(模拟浏览器) 以前只会写静态页面分析,简单构造 url 那种爬虫 从这个实战里接触到了以下知识:xpathselenium WebDriveretree这里只介绍本文用到的地方xpath元素查找方式,使用这种方法几乎可以定位到页面上的任意元素。XPath是XML Path的简称,由于 HTML 文档...原创 2018-04-22 20:13:54 · 3336 阅读 · 8 评论 -
[静态定向爬虫]远程教育杂志
远程教育杂志链接 http://dej.zjtvu.edu.cn/ 2018年第二期第二刊: http://dej.zjtvu.edu.cn//oa/darticle.aspx?type=view&id=201802002 分析页面…CRTL+U 没啥好分析的 用时间戳来区分不同期刊 像:201X0YZZZ 凑时间戳用了rjust方法,右对齐填充数字 一个静态页面 用B...原创 2018-04-04 00:52:18 · 451 阅读 · 0 评论 -
爬虫实习日志
做爬虫实习工作了快 4 周了,故整理一下思绪。第一周的一两天熟悉工作环境,做了简单的WEB爬虫项目,以为是练手的…没想到第二天就直接布置项目了,虽然比较简单,后续也会继续维护修改。第二周开始主要做app爬虫方面的东西,涉及到的量比较大,现在也还在编写,主要通过这些项目和一些杂项掌握的有:初步了解了逆向工程熟练掌握APP抓包对安卓Xposed破解SSL pinning有初步了解对Scra...原创 2019-07-19 01:00:05 · 3237 阅读 · 0 评论