日朗格拉-优快云博客

原创爬虫03_股票数据定向爬虫

1.准备工作功能描述：目标：获取上交所和深交所所有股票的名称和交易信息输出：保存到文件中所用技术：requests、bs4、re、csv数据网站选择：新浪股票：http://finance.sina.com.cn/stock/ （动态）网易股票：http://quotes.money.163.com/ （静态）凤凰财经：http://app.finance.ifeng.com/list/stock.php （静态）原则：选择将股票数据静态写在html页面中的，而不是用js动态生成

2020-07-20 19:51:21 465

原创爬虫03_re库03_淘宝商品比价定向爬虫

1.实例分析定向爬虫可行性：访问https://www.taobao.com/robots.txt得User-agent: BaiduspiderDisallow: /User-agent: baiduspiderDisallow: /这里对根目录进行限制，但我们仅是拿来学习技术实现，不做商业用途且骚扰。2.程序结构设计3.代码实现关于写headers信息：1.登录淘宝，进入搜索页，F122.选择Network，刷新一下，找到最上方以search？开头的文件，右键copy -&

2020-07-20 14:16:16 307

原创爬虫03_re库02_正则表达式的语法

操作符语法实例

2020-07-20 11:47:04 145

原创爬虫03_re库01_函数介绍

1. re.search()从string全文中寻找第一个符合要求的，返回match对象import rematch = re.search(r'[1-9]\d{3}','asd 1000asd82')#匹配连续的4个数字if match: print(match.group(0))>>> 10002.re.match()从string的开头开始匹配，返回match对象import rematch = re.match(r'[1-9]\d{4}.

2020-07-20 11:01:18 152

原创爬虫02_bs4库02_中国大学排名

1.用requests库获取源代码2.用BeautifulSoup库遍历、分析得到需要数据3.根据要求使用.format格式化输出import requestsfrom bs4 import BeautifulSoupurl = "http://www.zuihaodaxue.com/zuihaodaxuepaiming2020.html"def getHTMLText(url): try: r = requests.get(url, timeout = 20)

2020-07-19 18:03:27 141

原创爬虫02_bs4库01

BeautifulSoup入门import requestsfrom bs4 import BeautifulSoupurl = 'http://python123.io/ws/demo.html'r = requests.get(url,)demo = r.textsoup = BeautifulSoup(demo, 'html.parser') #'html.parser'用于解析html的解释器#soup = BeautifulSoup(open("D://demo.html"), '

2020-07-19 10:31:04 108

原创爬虫01_requests库

爬虫01_requests库1.获取京东商品信息编码、状态码问题import requestsdef getHTMLText(url): try: r = requests.get(url,timeout=30,headers={'user-agent':'Mozilla/5.0'}) r.raise_for_status() #如果状态码不是200 引发异常 r.encoding = r.apparent_encoding

2020-07-18 22:04:06 128

weixin_41570413的博客