- 博客(5)
- 收藏
- 关注
原创 python之基于scrapy的网络爬虫(基础):爬虫步骤,yield的使用,scrapy爬虫的数据类型
Scrapy 爬虫的框架介绍及常用命令: https://blog.youkuaiyun.com/qq_42281826/article/details/80998959 Scrapy 爬虫的步骤: 建立一个Scrapy 爬虫项目。(在command下执行) scrapy startproject projectname 在工程中新建一个爬虫,在spiders下生成一个spidername.py文件。(在c...
2019-08-06 15:58:54
368
原创 python爬虫之股票数据
候选网站的选择:股票信息静态存在于HTML页面中,非js代码生成,没有Robots协议限制。 程序结构: 从东方财富网获取股票列表 根据股票列表逐个到百度股票获取个股信息 将结果存储到文件 import requests from bs4 import BeautifulSoup import re import traceback def getHTMLText(url): try...
2019-08-05 16:40:06
300
原创 python爬虫之淘宝商品比价定向爬虫
使用requests,re库来定向爬取淘宝商品。 结构设计: 提交商品搜索请求,循环获取后续页面 对于每个页面,提取商品名称、价格信息 将信息输入到屏幕上 import requests import re def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_s...
2019-08-01 09:44:47
1061
原创 Python之正则表达式
regular expression----regex--------RE 是用来简洁表达一组字符串的表达式,也可以用来判断某字符串是否有某一特征。 正则表达式的语法:由字符和操作符构成 字符 描述 . 表示任何单个字符 [ ] 字符集,对单个字符给出取值范围,[abc]=a,b,c [^] [^abc]=非a或非b或非c的单个字符 * *的前一个字符0次或无限次扩展 ...
2019-07-30 15:42:59
163
原创 网络爬虫
最近在学习网络爬虫,使用网络爬虫获取大学排名。 其中使用到requests库,bs4库。 import requests from bs4 import BeautifulSoup import bs4 #因为下面有引用bs4中的一个类bs4.element.Tag def getHTMLText(url): try: r = requests.get(url)...
2019-07-25 15:58:18
140
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅