python爬虫
文章平均质量分 69
cats_miao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用scrapy+selenium + phantomjs 爬取vip网页,保存为json格式,写入到mysql数据库,下载图片(一)
用命令在终端创建一个项目: scrapy startproject myvipspider进入到myvipspider项目下运行命令: scrapy genspider weipin "vip.com"项目下有这几个文件,当settings.py文件设置:# -*- coding: utf-8 -*-# Scrapy settings for weipinhui project## For...原创 2018-04-16 19:41:36 · 386 阅读 · 0 评论 -
爬虫数据保存到数据库通用格式--------pipelines.py 下载管道
import pymysqlclass MysqlPipeline(object): def __init__(self): self.conn = None self.cur = None def open_spider(self, spider): self.conn = pymysql.connect( ...原创 2018-05-22 08:30:27 · 526 阅读 · 0 评论 -
爬虫数据保存到数据库通用格式--------pipelines.py
import loggingimport pymysql logger = logging.getLogger(__name__) logger.setLevel(logging.DEBUG) class MysqlPipeline(object): def __init__(self): self.conn = None self.cur = None def open...原创 2018-05-22 08:27:45 · 731 阅读 · 0 评论 -
taobaoMeishiSpider 爬取淘宝美食数据
我的源码地址: https://github.com/miaochaoqing123/taobaoMeishiSpider from time import sleepimport re from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.suppo...原创 2018-04-29 10:19:49 · 373 阅读 · 0 评论 -
爬取猫眼电影网的排行榜单(进程池)---正则
爬取猫眼电影网的排行榜单(进程池) import reimport json import requests from multiprocessing import Pool # 导入捕获异常库 from requests.exceptions import RequestException # 获取网页数据 def get_one_page(url): headers = { "Use...原创 2018-04-27 20:24:22 · 379 阅读 · 0 评论 -
爬取某品的一些数据(因为页面是json动态加载,所以用了selenium + PhantomJS)
from time import sleepimport jsonimport csvfrom selenium import webdriverfrom bs4 import BeautifulSoupimport urllib.parseimport urllib.requestclass SpiderVip(object): def __init__(self,url,start_pa...原创 2018-04-11 23:29:41 · 2426 阅读 · 0 评论 -
爬取深圳二手房信息(作为以后看看.)
import urllib.requestimport urllib.parsefrom bs4 import BeautifulSoupimport jsonclass LianJiaSpider(object): def __init__(self,url,start,end): self.url = url self.start = start ...原创 2018-04-11 23:32:37 · 387 阅读 · 0 评论 -
爬取一 个论坛的QQ号
# 如有错的地址,请大神们指定,谢谢import randomimport reimport urllib.requestlistQqAll = []listNum = []for i in range(1,50): # 循环49次爬取 xx通讯录 共49页 urlPath = "xx通讯录网址" # 就不显示了 下面的变量名也改了Xx,我自己是带拼音的,...原创 2018-01-16 23:08:22 · 1087 阅读 · 0 评论 -
邮箱分类
# 思路:# 1.遍历目录# 2.如果是目录接着遍历# 3.如果是文件# 1.以只读的形式打开文件# 2.一行一行的读# 3.提取邮箱类型# 4.判断该类型对应的目录是否存在# 存在# 不存在---> 创建目录# 5.写# 关闭文件import osdef mailType(sour...原创 2018-01-16 00:14:50 · 1968 阅读 · 0 评论 -
用scrapy+selenium + phantomjs 爬取vip网页,保存为json格式,写入到mysql数据库,下载图片(二)
接上一编weipin.py文件的代码 :# -*- coding: utf-8 -*-import scrapyfrom weipinhui.items import WeipinhuiItemimport urllib.parseclass WeipinSpider(scrapy.Spider): name = 'weipin' allowed_domains = ['...原创 2018-04-16 19:38:06 · 739 阅读 · 0 评论 -
《王者荣耀》出装下助手
# coding: utf-8from urllib.request import urlretrieveimport requestsimport osdef hero_imgs_download(url, header): req = requests.get(url=url, headers=header).json() hero_num = l...原创 2018-07-19 08:36:54 · 1722 阅读 · 0 评论
分享