
python爬虫与信息提取
过气久远
只是记录而已
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫——BeautifulSoup库
明确BeautifulSoup库的作用——解析html/xml等页面基本格式:>>>import requests>>>r=requests.get("http://python123.io/ws/demo.html")>>>demo=r.text&g原创 2019-02-14 22:02:24 · 231 阅读 · 0 评论 -
vscode中配置anaconda和python的注意事项
背景:本人预先下载了python-3.6来进行python的学习与操作,在学习爬虫的过程中,由于一下子安装不了scrapy而后续需要anaconda,便一并下载了anaconda。关于vscode和anaconda,最好先安装anaconda,而后在anaconda的安装过程中不仅会安装python-3.7。1也会提示你安装vscode。安装过程可参考其他博主写的由于我选择不了自动配置环境...原创 2019-02-19 17:09:55 · 3010 阅读 · 0 评论 -
python爬虫——scrapy库(1)
关于这个库,自己并不是特别会使用只贴上一个并不成功的代码这个库应该是可以抓取动态内容,但mooc中并未提及文件创立和爬取均通过cmd命令行进行,如 :scrapy startproject <文件名>scrapy crawl <>stocks.py文件# -*- coding: utf-8 -*-import scrapyimport r原创 2019-02-24 13:17:04 · 242 阅读 · 0 评论 -
python爬虫——简单框架
最易框架import requeststry: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000])except: print("爬取失败")对于限制某些爬虫进入的网站,我们需要更改user-agent,如爬取亚马逊商品信息:import req...原创 2019-02-13 12:16:20 · 191 阅读 · 0 评论 -
python爬虫——股票数据定向爬虫
全代码仍然是对静态网页的数据爬取#CrowBaiduStocks.pyimport requestsfrom bs4 import BeautifulSoupimport tracebackimport redef getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_fo...原创 2019-02-18 16:59:42 · 660 阅读 · 0 评论 -
python爬虫——当当网商品比价爬虫
因为淘宝网需要登录,而京东的html比较奇怪,所以最后选取了当当网#CrowDangDangPrize.pyimport requestsimport reimport urllibdef getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() ...原创 2019-02-17 18:16:44 · 1409 阅读 · 0 评论 -
python爬虫——re库
正则表达式的表达类型raw string类型(原生字符串类型):不包含对转义字符再次转义的字符串而re库应尽量采用此类型表示正则表达式r’text’Re库的主要功能函数re.search()Re.search():在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象格式:re.search(pattern,string,flags=0)pattern:正则表达式的字...原创 2019-02-17 11:33:08 · 354 阅读 · 0 评论 -
python爬虫——正则表达式入门
关于正则表达式正则表达式是用来简洁表达一组字符串的表达式,其优势在于简洁re.compile(regex)——编译:将符合正则表达式语法的字符串转化成正则表达式特征语法部分为了加深理解,可以在python123上找到一些相关的练习:https://python123.io/index/tutorials/regex_intro对于比较混乱、格式不一的数据,我们需要找到一个统一的...原创 2019-02-16 12:55:20 · 519 阅读 · 0 评论 -
python爬虫——9102年中国大学定向排名
功能输入:大学排名URL链接输出:大学排名的信息(排名,大学名称,总分)可行性robost.txt协议键入http://zhuihaodaxue.com/robots.txt即对爬虫无限制查看网页源代码结构:排名部分的结构< tbody> <tr> <td>...</td> <td>...<...原创 2019-02-15 21:32:55 · 254 阅读 · 0 评论 -
python爬虫——信息标记与提取方法
信息标记的三种形式XML:<>…</>(html扩展)< name >...< /name >< name />< !-- -- >JSON:有类型key:value'key":"value""key":["value1","value2"原创 2019-02-15 10:15:24 · 341 阅读 · 0 评论 -
python爬虫——lxml的使用
为了更好的学习scrapy库,我决定先其前驱内容lxml库此次我们爬取豆瓣电影Top250代码如下:import requests from lxml import etreeimport timeimport csvheaders={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/53...原创 2019-02-26 21:22:43 · 1052 阅读 · 0 评论