- 博客(8)
- 收藏
- 关注
原创 股票数据Scrapy爬虫
优化 stocks.py # -*- coding: utf-8 -*- import scrapy import re class StocksSpider(scrapy.Spider): name = "stocks" start_urls = ['https://quote.eastmoney.com/stocklist.html'] ...
2020-03-26 17:31:57
587
原创 Scrapy爬虫框架
Scrapy是一个快速功能强大的网络爬虫框架 框架结构 5+2框架解析requests vs ScarpyScrapy 命令Scrapy的第一个实例yield 关键字的使用Scrapy的基本使用 框架结构 5+2 框架解析 requests vs Scarpy Scrapy 命令 Scrapy的第一个实例 yield 关键字的使用 Scr...
2020-03-26 16:48:10
253
原创 股票数据定向爬虫
import requests from bs4 import BeautifulSoup import traceback import re def getHTMLText(url): try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_e...
2020-03-22 10:58:45
476
原创 淘宝商品比价定向爬虫
import requests import re def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text ...
2020-03-22 10:00:55
458
原创 Re(正则表达式)库入门
正则表达式 regular expression ,regex,RE 正则表达式是用来简洁表达一组字符串的表达式 正则表达式的语法 正则表达式语法由字符和操作符构成 .表示任何单个字符 []字符集,对单个字符给出取值范围 [abc]表示a、b,c,[a-z]表示a到z单个字符 ```[^ ]``非字符集,对单个字符给出排除范围 [^abc]表示非a或b或c的单个字符 * 前一个字符0次或无限次...
2020-03-21 12:18:19
291
原创 中国大学排名定向爬虫
功能描述 输入:大学排名URL链接 输出:大学排名信息的屏幕输出(排名,大学名称,总分) 技术路线:requests-bs4 定向爬虫:仅对输入URL进行爬取,不扩展爬取 定向爬虫可行性 查看网页: http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html 查看robots协议: http://www.zuihaodaxue.cn/robots.t...
2020-03-19 16:46:19
299
原创 BeautifulSoup库入门
安装 #win平台以管理员权限运行cmd pip install beautifulsoup4 #验证是否安装成功 import requests r = requests.get("http://python123.io/ws/demo.html") r.text demo = r.text from bs4 import BeautifulSoup soup = BeautifulSoup...
2020-03-19 14:49:40
211
原创 Requests库网络爬虫实战(5个实例)
实例1:京东商品页面的爬取 import requests url = "https://item.jd.com/100005185593.html" #京东mate30 5g try: r = requests.get(url) r.raise_for_status() #如果不是200,则产生异常 r.encoding = r.apparent_encoding #从内容返回编码方式 ...
2020-03-17 20:40:48
1604
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅