
爬虫
文章平均质量分 75
小小蒲公英
博主长期熬夜加班身体抱恙,转行健康领域了
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
GET和POST的区别
GET提交的数据会放在URL之后,以?分割URL和传输数据,参数之间以&相连,如EditPosts.aspx?name=test1&id=123456。 POST方法是把提交的数据放在HTTP包的Body中。GET提交的数据大小有限制(因为浏览器对URL的长度有限制),而POST方法提交的数据没有限制。GET方式需要使用Request.QueryString来取得变量的值,而POST方式通过Re转载 2018-02-03 00:19:36 · 181 阅读 · 0 评论 -
Scrapy框架:爬取博客
终端输入scrapy startproject cdblogSpider创建一个scrapy项目,框架结构如下:进入项目文件夹,创建一只爬虫cd cnblogSpiderscrapy genspider cnblogs_spider cnblogs.com打开以下文件并进行修改cnblogs_spider.py# -*- coding: utf-8 -*-imp...原创 2018-08-11 14:05:32 · 638 阅读 · 0 评论 -
Scrapy框架:爬取知乎
本文主要知识点:Scrapy框架静态页面+动态页面 抓取pymongo存储思路梳理 代码注:书中源代码太久远完全跑不动,以下代码是本人大致揣摩了一下作者意思编写的 终端运行:scrapy startproject zhihuCrawlcd zhihuCrawlscrapy genspider -t crawl zhihu.com zhihu.comz...原创 2018-08-18 17:26:37 · 1630 阅读 · 0 评论 -
Scrapy框架:爬取云起
首先创建一个爬虫项目scrapy startproject yunqiCrawlcd yunqiCrawlscrapy genspider -t crawl yunqi.qq.com yunqi.qq.comyunqi.py# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import L...原创 2018-08-20 15:22:01 · 303 阅读 · 0 评论 -
爬取影评信息
动态爬虫1:爬取影评信息网页下载器import requestsfrom http import cookiejarimport urllibclass HtmlDownloader(): def cookie(): with open('cookie.txt','r') as f: cookies={} ...原创 2018-08-24 07:43:40 · 948 阅读 · 0 评论 -
WEB前端基础
W3C标准这部分推荐多看,浏览器(浏览器的话,我偏爱2345浏览器和FireFox,尤其在Xpath部分,FireFox的firebug,firexpath凸显绝对优势)打开任意网页,按F12;或者右击>>查看网页源代码;或者选中页面某一元素>>右击>>审查元素。 如果时间充裕的话,推荐动手试试制作网页,不需要太高端,只需最基础的那种,这里推荐使用菜鸟...原创 2018-08-28 17:00:23 · 921 阅读 · 0 评论 -
Pyspider框架:爬取TripAdvisor
1.终端输入pyspider all2.浏览器打开http://localhost:5000/,得到以下界面3.点击create,创建一个爬虫项目4.打开项目,界面如下所示,右侧为脚本区(用来写爬虫代码),左侧为页面预览区左上方:run:执行代码区请求,并返回结果或异常左下方:1.enable css selector helper:配合web进行使用,...原创 2018-08-24 15:44:01 · 849 阅读 · 0 评论 -
学爬虫,我需要掌握哪些Python基础?
接触爬虫已经有一段时间了,常常有人问我:我会点Python,想自学爬虫,你看用什么方法好呢? 我:我喜欢边做项目边学习,爬取过程中遇到问题再百度,扩展 xx:我看了网上教材,过程很简略,最后给了一个编码,有的我实例一下好像还不成功 我:代码也会“过期”,尤其是爬虫,需要自己修改 xx:怎么修改? 我:Python学到哪了? xx:集合 我:。。。入手爬虫确实不要求你精通Pytho...原创 2018-08-21 19:38:45 · 21386 阅读 · 0 评论 -
Pyspider框架:爬取豆瓣电影
#!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2018-08-21 02:03:43# Project: doubanMoviefrom pyspider.libs.base_handler import *from pymongo import MongoClientclass MongoStore(obje...原创 2018-08-24 21:02:18 · 1439 阅读 · 0 评论 -
一键下载matplotlib所有例题
Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形 ,仅需要几行代码,便可以生成绘图,直方图,功率谱,条形图,错误图,散点图等。 Matplotlib所有例题链接皆在该链接里http://matplotlib.org/examples/index.html,需使用时可手动点击下载,但一条条地下载实在太费时费力了,于是我们借助爬...原创 2018-09-11 15:44:34 · 226 阅读 · 0 评论 -
爬取今日头条街拍美图
import requestsfrom urllib.parse import urlencodeimport osfrom hashlib import md5from multiprocessing.pool import Pooldef get_page(offset): params={ 'offset':offset, 'format...原创 2018-09-12 15:56:56 · 272 阅读 · 0 评论 -
Splash
属性args:加载时配置的参数Get:请求参数 Post:表单提交的数据js_enabledresours_timeoutimages_enabledplugins_enabledscroll_position方法go() wait() jsfunc() evaljs() autoload() call_later() http_get() http_...原创 2018-09-15 15:42:36 · 345 阅读 · 0 评论 -
利用爬虫发布打卡帖
from selenium import webdriverimport timefrom PIL import Imagefrom io import BytesIOimport pytesseractdef fill_in(message,browser): message=[account,password] input=browser.find_elements...原创 2018-09-20 15:43:00 · 276 阅读 · 0 评论 -
爬取去哪儿网
import datetimefrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECclass QunaerSpider(): def get_hotel(se...原创 2018-09-20 16:01:00 · 2490 阅读 · 1 评论 -
Selenium:爬取淘宝商品
from selenium import webdriverfrom selenium.common.exceptions import TimeoutExceptionfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import expected_conditions as ECfrom...原创 2018-09-20 16:10:27 · 431 阅读 · 0 评论 -
爬取今日头条图片
import requestsfrom urllib.parse import urlencodeimport osfrom hashlib import md5from multiprocessing.pool import Pooldef get_page(offset): params={ 'offset':offset, 'format...原创 2018-09-20 16:16:34 · 604 阅读 · 0 评论 -
爬取邮政服务网点
import requestsfrom lxml import etreeimport pandas as pdheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36...原创 2019-04-18 13:12:29 · 1054 阅读 · 1 评论 -
python正则表达式去除html标签
代码实现import pandas as pdimport reresult=pd.read_csv('egg_comment.csv')result_text=[]comp = re.compile('</?\w+[^>]*>')for i in result.text: result_text.append(comp.sub('', i))result...原创 2019-06-29 22:04:53 · 3006 阅读 · 0 评论 -
数据存储(数据库)
SQL语法数据定义语言(DDL) DDL语句 含义 CREATE DATABASE 创建数据库 DROP DATABASE 修改数据库 CREATE TABLE 创建新表 ALTER TABLE 变更数据库表 DROP TABLE 删除表 CREATE INDEX 创建索引 DROP INDE...原创 2018-08-10 17:11:14 · 702 阅读 · 0 评论 -
学习笔记——爬虫
个人学习笔记,几乎都是在别人代码的基础上自己稍作修改,方便二次利用,介意的话请跳过这个系列文章,谢谢参考至《Python爬虫开发与项目实战》基础篇Python编程 初识网络爬虫 数据存储(本地) 基础爬虫 简单分布式爬虫中级篇数据存储(数据库) 动态网站抓取 Web端协议分析 终端协议分析...原创 2018-08-10 15:54:18 · 6491 阅读 · 2 评论 -
简单分布式爬虫
控制节点URL管理器import pickleimport hashlibclass UrlManager(): def __init__(self): self.new_urls=self.load_process('new_urls.txt') self.old_urls=self.load_process('old_urls.tx...原创 2018-08-10 15:37:01 · 544 阅读 · 0 评论 -
Urllib+BeautifulSoup(抓取豆瓣书评)
from urllib.request import urlopenfrom bs4 import BeautifulSouplist=[]def getUrl(url): try: douban=urlopen(url) bs4=BeautifulSoup(douban,'lxml') comments=bs4.find_all('div原创 2018-02-09 17:51:22 · 837 阅读 · 0 评论 -
Urllib+BeautifulSoup(抓取图片)
from urllib.request import urlopen,urlretrievefrom bs4 import BeautifulSoupdef getUrl(url): try: douban=urlopen(url) bs4=BeautifulSoup(douban,'lxml') pictures=bs4.find_all(原创 2018-02-09 17:54:19 · 453 阅读 · 0 评论 -
Requests+Xpath(爬取豆瓣书评)
import requestsfrom lxml import etreefor i in range(1,9): r=requests.get('https://book.douban.com/subject/26829016/comments/hot?p=%d'%i).text comments=etree.HTML(r) coms=comments.xpath('/原创 2018-02-09 17:58:03 · 2038 阅读 · 1 评论 -
Urllib+BeautifulSoup(抓取音频)
from bs4 import BeautifulSoupfrom urllib.request import urlopen,urlretrieve,Requestimport jsonUrl=[]def getUrl(URL): try: headers = { 'User-Agent': r'xxxxxxxxxxxxxxxx' ...原创 2018-02-09 17:56:36 · 756 阅读 · 0 评论 -
Requests+Xpath(爬取图片)
import requestsfrom lxml import etreej=0for i in range(0,6): r=requests.get('https://book.douban.com/tag/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C?'+'start=%d&amp;amp;type=T'%i*20).content books=et...原创 2018-02-09 17:59:23 · 7110 阅读 · 3 评论 -
Requests+Xpath(爬取音频)
import requestsfrom lxml import etreeimport jsonheaders = { 'User-Agent': r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)' r'Chrome/47.0.原创 2018-02-10 17:37:28 · 862 阅读 · 0 评论 -
获取股票数据(保存为csv文件)
import tushare as tsimport oscode=input('股票代码:')start=input('开始日期,格式YYYY-MM-DD:')end=input('结束日期,格式YYYY-MM-DD:')os.makedirs(r'%s/k线数据'%code)os.makedirs(r'%s/复权数据'%code)#历史行情数据#k线数据ts.get_hist_da原创 2018-02-13 02:22:06 · 17019 阅读 · 4 评论 -
爬取花瓣网图片
import requestsimport redef huaban(url): r=requests.get(url).content.decode('utf-8') pages=re.compile(r'app\.page\["pins"\].*').findall(r) if pages == []: null = None result =原创 2018-02-21 00:14:03 · 2426 阅读 · 0 评论 -
爬取淘宝商品
import requestsfrom bs4 import BeautifulSoupfrom requests.exceptions import ReadTimeout,ConnectionError,RequestExceptionimport reimport jsonimport csvheaders = { 'User-Agent': r'xxxxxxxxxxx...原创 2018-02-24 13:57:23 · 1105 阅读 · 0 评论 -
爬取微博
import requestsfrom bs4 import BeautifulSoup as bs4from urllib.request import urlretrieveimport jsonimport csvimport reurl_1='https://m.weibo.cn/api/container/getSecond?containerid=100505351712...原创 2018-02-24 13:58:48 · 638 阅读 · 0 评论 -
爬取淘宝评论并生成词云
import requestsimport jsonfrom lxml import etreeimport reimport jiebaimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,ImageColorGeneratorimport numpy as npimport PIL.Image as Ima...原创 2018-03-04 09:37:50 · 4402 阅读 · 6 评论 -
爬取智联招聘(搜索含关键词职位)
import requestsfrom lxml import etreefrom bs4 import BeautifulSoupimport pandas as pddef request(keyword,i,city='输入选择城市'): url='https://sou.zhaopin.com/jobs/searchresult.ashx?jl={}&amp;kw={}&...原创 2018-05-12 01:09:49 · 2621 阅读 · 0 评论 -
爬取新浪微博(搜索含关键词微博及其评论)
import csvimport requestsimport jsonimport reimport jiebaimport matplotlib.pyplot as pltfrom wordcloud import WordCloud,ImageColorGeneratorimport PIL.Image as Imagesearch=input('请输入关键词:')url...原创 2018-05-06 10:23:11 · 21201 阅读 · 35 评论 -
Python编程
个人学习笔记,几乎都是在别人代码的基础上自己稍作修改,方便二次利用,介意的话请跳过这个系列文章,谢谢参考至《Python爬虫开发与项目实战》 文件读写open函数open(file, mode=’r’, buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)主...原创 2018-08-10 14:42:05 · 772 阅读 · 0 评论 -
初识网络爬虫
HTTP请求urllib模块GET请求import urllibresponse=urllib.request.urlopen('http://www.zhihu.com')html=response.read()print(html)import urllibrequest=urllib.request.Request('https://weibo.c...原创 2018-08-10 15:08:06 · 794 阅读 · 2 评论 -
数据存储(本地)
HTML正文抽取JSONimport requestsfrom bs4 import BeautifulSoupuser_agent='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explo...原创 2018-08-10 15:21:52 · 648 阅读 · 0 评论 -
基础爬虫
URL管理器class UrlManager(): def __init__(self): self.new_urls=set() self.old_urls=set() def has_new_url(self): return self.new_url_size()!=0 def get_new_url(sel...原创 2018-08-10 15:28:36 · 632 阅读 · 0 评论 -
爬取商户编码——招行
import requestsfrom lxml import etreeimport pandas as pdfrom sqlalchemy import create_engineimport timeimport randomconnect=create_engine('mysql+pymysql://user:password@xx:xx/xx?charset=utf8',...原创 2019-10-03 14:57:27 · 659 阅读 · 1 评论