amanda_lxy-优快云博客

原创 python之基于scrapy的网络爬虫（基础）：爬虫步骤，yield的使用，scrapy爬虫的数据类型

Scrapy 爬虫的框架介绍及常用命令： https://blog.youkuaiyun.com/qq_42281826/article/details/80998959 Scrapy 爬虫的步骤：建立一个Scrapy 爬虫项目。（在command下执行） scrapy startproject projectname 在工程中新建一个爬虫，在spiders下生成一个spidername.py文件。（在c...

2019-08-06 15:58:54 368

原创 python爬虫之股票数据

候选网站的选择：股票信息静态存在于HTML页面中，非js代码生成，没有Robots协议限制。程序结构：从东方财富网获取股票列表根据股票列表逐个到百度股票获取个股信息将结果存储到文件 import requests from bs4 import BeautifulSoup import re import traceback def getHTMLText(url): try...

2019-08-05 16:40:06 300

原创 python爬虫之淘宝商品比价定向爬虫

使用requests，re库来定向爬取淘宝商品。结构设计：提交商品搜索请求，循环获取后续页面对于每个页面，提取商品名称、价格信息将信息输入到屏幕上 import requests import re def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_s...

2019-08-01 09:44:47 1061

原创 Python之正则表达式

regular expression----regex--------RE 是用来简洁表达一组字符串的表达式，也可以用来判断某字符串是否有某一特征。正则表达式的语法:由字符和操作符构成字符描述 . 表示任何单个字符 [ ] 字符集，对单个字符给出取值范围，[abc]=a,b,c [^] [^abc]=非a或非b或非c的单个字符 * *的前一个字符0次或无限次扩展 ...

2019-07-30 15:42:59 163

原创网络爬虫

最近在学习网络爬虫，使用网络爬虫获取大学排名。其中使用到requests库，bs4库。 import requests from bs4 import BeautifulSoup import bs4 #因为下面有引用bs4中的一个类bs4.element.Tag def getHTMLText(url): try: r = requests.get(url)...

2019-07-25 15:58:18 140

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 python之基于scrapy的网络爬虫（基础）：爬虫步骤，yield的使用，scrapy爬虫的数据类型

原创 python爬虫之股票数据

原创 python爬虫之淘宝商品比价定向爬虫

原创 Python之正则表达式

原创 网络爬虫

空空如也

空空如也

原创网络爬虫