自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 股票数据Scrapy爬虫

优化 stocks.py # -*- coding: utf-8 -*- import scrapy import re class StocksSpider(scrapy.Spider): name = "stocks" start_urls = ['https://quote.eastmoney.com/stocklist.html'] ...

2020-03-26 17:31:57 587

原创 Scrapy爬虫框架

Scrapy是一个快速功能强大的网络爬虫框架 框架结构 5+2框架解析requests vs ScarpyScrapy 命令Scrapy的第一个实例yield 关键字的使用Scrapy的基本使用 框架结构 5+2 框架解析 requests vs Scarpy Scrapy 命令 Scrapy的第一个实例 yield 关键字的使用 Scr...

2020-03-26 16:48:10 253

原创 股票数据定向爬虫

import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_e...

2020-03-22 10:58:45 476

原创 淘宝商品比价定向爬虫

import requests import re def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text ...

2020-03-22 10:00:55 458

原创 Re(正则表达式)库入门

正则表达式 regular expression ,regex,RE 正则表达式是用来简洁表达一组字符串的表达式 正则表达式的语法 正则表达式语法由字符和操作符构成 .表示任何单个字符 []字符集,对单个字符给出取值范围 [abc]表示a、b,c,[a-z]表示a到z单个字符 ```[^ ]``非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次...

2020-03-21 12:18:19 291

原创 中国大学排名定向爬虫

功能描述 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests-bs4 定向爬虫:仅对输入URL进行爬取,不扩展爬取 定向爬虫可行性 查看网页: http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 查看robots协议: http://www.zuihaodaxue.cn/robots.t...

2020-03-19 16:46:19 299

原创 BeautifulSoup库入门

安装 #win平台以管理员权限运行cmd pip install beautifulsoup4 #验证是否安装成功 import requests r = requests.get("http://python123.io/ws/demo.html") r.text demo = r.text from bs4 import BeautifulSoup soup = BeautifulSoup...

2020-03-19 14:49:40 211

原创 Requests库网络爬虫实战(5个实例)

实例1:京东商品页面的爬取 import requests url = "https://item.jd.com/100005185593.html" #京东mate30 5g try: r = requests.get(url) r.raise_for_status() #如果不是200,则产生异常 r.encoding = r.apparent_encoding #从内容返回编码方式 ...

2020-03-17 20:40:48 1604

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除