
-----四周爬虫系列
GeekLeee
这个作者很懒,什么都没留下…
展开
-
课时09 第二节课程:解析网页中的元素
find-all原创 2016-10-02 16:03:12 · 881 阅读 · 0 评论 -
课时07 第一节课程:认识网页的构成
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>the blah</title> <link rel="stylesheet" type="text/css" href="main.css"></head><body> <div class="header">原创 2016-10-02 12:26:58 · 535 阅读 · 0 评论 -
课时11 第三节课程:真实世界中的网页解析
正常的网页解析from bs4 import BeautifulSoupimport requestsurl = 'http://www.tripadvisor.cn/Attractions-g60763-Activities-New_York_City_New_York.html'wb_data = requests.get(url)soup = BeautifulSoup(wb_data.t原创 2016-10-02 22:18:46 · 1327 阅读 · 0 评论 -
课时12 第三节练习项目:爬取租房信息
小猪租房http://bj.xiaozhu.com/search-duanzufang-p1-0/首先爬取30页的详情页链接from bs4 import BeautifulSoupimport requestspage_link = [] # <- 每个详情页的链接都存在这里,解析详情的时候就遍历这个列表然后访问就好啦~def get_page_link(page_number): fo原创 2016-10-03 11:05:48 · 1224 阅读 · 0 评论 -
bs.find()和bs.findAll()的区别,print()函数的格式化
print()函数直接打印数据结构的话不会对数据结构内的字符串进行格式化。bs.find()返回的是一个字符串,print()可以对其进行格式化import requestsfrom bs4 import BeautifulSoupr = requests.get("https://www.baidu.com")bs = BeautifulSoup(unicode(r.content,"utf-原创 2016-10-18 10:57:18 · 4620 阅读 · 0 评论