Ellennnnnnnnnn-优快云博客

原创股票数据Scrapy爬虫

优化 stocks.py # -*- coding: utf-8 -*- import scrapy import re class StocksSpider(scrapy.Spider): name = "stocks" start_urls = ['https://quote.eastmoney.com/stocklist.html'] ...

2020-03-26 17:31:57 587

原创 Scrapy爬虫框架

Scrapy是一个快速功能强大的网络爬虫框架框架结构 5+2框架解析requests vs ScarpyScrapy 命令Scrapy的第一个实例yield 关键字的使用Scrapy的基本使用框架结构 5+2 框架解析 requests vs Scarpy Scrapy 命令 Scrapy的第一个实例 yield 关键字的使用 Scr...

2020-03-26 16:48:10 253

原创股票数据定向爬虫

import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_e...

2020-03-22 10:58:45 476

原创淘宝商品比价定向爬虫

import requests import re def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text ...

2020-03-22 10:00:55 458

原创 Re(正则表达式)库入门

正则表达式 regular expression ，regex，RE 正则表达式是用来简洁表达一组字符串的表达式正则表达式的语法正则表达式语法由字符和操作符构成 .表示任何单个字符 []字符集，对单个字符给出取值范围 [abc]表示a、b，c，[a-z]表示a到z单个字符 ```[^ ]``非字符集，对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次...

2020-03-21 12:18:19 291

原创中国大学排名定向爬虫

功能描述输入：大学排名URL链接输出：大学排名信息的屏幕输出（排名，大学名称，总分）技术路线：requests-bs4 定向爬虫：仅对输入URL进行爬取，不扩展爬取定向爬虫可行性查看网页： http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 查看robots协议： http://www.zuihaodaxue.cn/robots.t...

2020-03-19 16:46:19 299

安装 #win平台以管理员权限运行cmd pip install beautifulsoup4 #验证是否安装成功 import requests r = requests.get("http://python123.io/ws/demo.html") r.text demo = r.text from bs4 import BeautifulSoup soup = BeautifulSoup...

2020-03-19 14:49:40 211

原创 Requests库网络爬虫实战（5个实例）

实例1：京东商品页面的爬取 import requests url = "https://item.jd.com/100005185593.html" #京东mate30 5g try: r = requests.get(url) r.raise_for_status() #如果不是200，则产生异常 r.encoding = r.apparent_encoding #从内容返回编码方式 ...

2020-03-17 20:40:48 1604

君行处的博客