
网络爬虫
文章平均质量分 51
甜瓜黍叔
这个作者很懒,什么都没留下…
展开
-
网络爬虫笔记(Day2)
爬取个人 人人主页 的代码:首先用最原始的方法进行,可以看出这样写代码,比较麻烦,重复代码很多:from urllib import request, parseurl = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018721913553'headers = { 'User-Agent...原创 2018-08-14 21:32:04 · 440 阅读 · 0 评论 -
进程和线程——Python中的实现
一、进程(Process) 进程是一个实体。每一个进程都有它自己的地址空间,一般情况下,包括文本区域(text region)、数据区域(data region)和堆栈(stack region)。文本区域存储处理器执行的代码;数据区域存储变量和进程执行期间使用的动态分配的内存;堆栈区域存储着活动过程调用的指令和本地变量。 进程是一个“执行中的程序”。程序是一个没有生命的实体,...原创 2018-08-20 23:02:50 · 357 阅读 · 0 评论 -
网络爬虫笔记(Day9)——初识Scrapy
爬虫步骤:分析需求 获取网页的URL 下载网页内容(Downloader下载器) 定位元素位置, 获取特定的信息(Spiders 蜘蛛) 存储信息(ItemPipeline, 一条一条从管里传输) 队列存储(Scheduler 调度器)Scrapy:学习文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html首...原创 2018-08-23 19:40:56 · 303 阅读 · 0 评论 -
网络爬虫笔记(Day8)——IP代理
可以去某宝或其他渠道购买,具体使用看自己购买商家的API文档,查看使用方法。ip_proxy.pyimport requestsclass ip_getter(object): def __init__(self): self.ip_proxy_str = get_ip_string() def update_ip_proxy_str(self)...原创 2018-08-23 19:19:13 · 375 阅读 · 0 评论 -
网络爬虫笔记(Day8)——BeautifulSoup
BeautifulSoup我们到网站上爬取数据,需要知道什么样的数据是我们想要爬取的,什么样的数据是网页上不会变化的。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unico...原创 2018-08-23 19:12:33 · 334 阅读 · 0 评论 -
网络爬虫笔记(Day5)——链家
注意:请不要爬取过多信息,仅供学习。分析:业务需求分析......(此例为住房信息...) 查找相关网页信息(以链家为例) 分析URL,查找我们需要的内容,建立连接 定位数据 存储数据首先进入链家网首页,点击租房,F12检查网页,查找我们需要的信息。如图:第一页url:https://bj.lianjia.com/zufang/第二页url:https://bj....原创 2018-08-17 17:01:34 · 677 阅读 · 0 评论 -
网络爬虫笔记(Day5)——腾讯社招&拉勾网
分析过程与链家是一样的。腾讯社招完整代码如下:import requestsfrom lxml import etreefrom mysql_class import Mysql # 自己封装好的Mysql类def txshezhao(keywords, page): ''' :param keywords: 指定搜索关键字进行数据爬取 :param ...原创 2018-08-19 14:58:23 · 1037 阅读 · 0 评论 -
网络爬虫笔记(Day4)
爬取今日头条图集 进入今日头条首页:https://www.toutiao.com/ 步骤:1、查看网页,查找我们需要的URL,分析URL 2、获取网页内容,分析内容 3、定位我们需要的内容 4、将数据存储 在搜素框 输入要搜索的内容(例如:街拍),然后选择图集,F12...原创 2018-08-16 22:06:47 · 348 阅读 · 0 评论 -
网络爬虫笔记(Day7)——Selenium
首先下载chromedriver 将其放入Python运行环境下,然后再去pip安装selenium。最简单的结构 代码如下:from selenium import webdriver# ----------------------不打开浏览器窗口-------------------------option_chrome = webdriver.ChromeOptions(...原创 2018-08-22 09:28:33 · 288 阅读 · 0 评论 -
网络爬虫笔记(Day1)
Day 1爬虫的过程1.首先需要了解业务需求2.根据需求,寻找网站3.将网站数据获取到本地 (可以通过urllib,requests等包)4.定位数据(re xpath css json等)5.存储数据(mysql redis 文件格式) 最简单...原创 2018-08-13 19:57:14 · 385 阅读 · 0 评论 -
Cookie 和 Session
cookie 和 session 的区别cookie:由于http请求是无状态的。它第一次和服务器连接后并且登录成功后,之后再次请求浏览器,浏览器还是不知道当前访问用是谁。因此cookie的出现就是为了解决这个问题,能够把第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,浏览器就会自动的把上次请求存储的coo...原创 2018-08-13 19:20:26 · 297 阅读 · 0 评论 -
网络爬虫笔记(Day3)
首先分析 雪球网 https://xueqiu.com/#/property第一次进去后,第一次Ajax请求得到的是 若下图所示的 max_id=-1, count=10。然后往下拉,第二次Ajax请求,如下图; 发现URL里面就max_id 和count不同,max_id为前一次Ajax的最后一条数据的id,以后的每次请求都是count=15,故我需要对url进行拼接。URL...原创 2018-08-15 21:05:07 · 265 阅读 · 0 评论 -
BeautifulSoup补充
此博文是对之前博文的补充 :https://blog.youkuaiyun.com/Clany888/article/details/81986302from bs4 import BeautifulSoupsoup = BeautifulSoup(html,'lxml') # 不标准的HTML字符串BeautifulSoup可以自动更正格式soup.prettify() # 将要解析的字符串按照...原创 2018-11-21 23:47:41 · 486 阅读 · 0 评论