py爬虫
王不留行的寒光粉
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Requests库入门
爬取网页通用代码框架: try: r = requests.get(url,timeout=30) r.raise_for_status() #如果返回的状态码不是200,引发HTTPErrow异常 r.enconding = r.apparent_encoding return r.text except: return "产生异常" 1. r原创 2017-03-04 11:41:33 · 367 阅读 · 0 评论 -
BeautifulSoup库(解析html和css文档)入门
使用: from bs4 import BeautifulSoup #bs4代表BeautifulSoup库,BeautifulSoup是一个类 soup = BeautifulSoup(‘data’,"html.parser") #参数1:需要解析的html格式的信息,可以用变量。参数2:需要的解析器 BeautifulSoup类的基本元素 Tag 标签,最基本的信息组织单元,分原创 2017-03-12 15:45:00 · 1515 阅读 · 0 评论 -
正则表达式与re库
正则表达式: regular expression regex RE 通用的字符串表达框架 简洁表达一组字符串的表达式 针对字符串表达“简洁”和“特征”思想的工具 判断某字符串的特征归属 主要应用在字符串匹配中 使用: 编译:将符合正则表达式语法的字符串转换成正则表达式特征。 p = re.compile(regex) #编译后的特原创 2017-03-29 16:11:47 · 402 阅读 · 0 评论 -
信息组织与提取方法
信息的标记 1/标记后的信息可形成信息组织结构,增加了信息维度 2/标记后的信息可用于通信/存储/展示 3/标记的结构与信息一样具有重要价值 4/标记后的信息更利于程序理解和运用 HTML(HyperText Markup Language) 信息标记的三种形式: XML(eXtensible Markup Language), 与html接近,采用以标签为主构原创 2017-03-14 23:11:32 · 368 阅读 · 0 评论
分享