
爬虫
chenpenghuan
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
使用BeautifulSoup爬取github内容示例
#!/usr/bin/env pythonimport urllib.requestimport refrom bs4 import BeautifulSoupdef getdata(url="http://github.com/racaljk/hosts/blob/master/hosts"): try: data = urllib.r原创 2016-09-04 13:34:45 · 1256 阅读 · 0 评论 -
按条件爬取百度百科词条及其相关词条的ID
1.使用多个头信息轮替访问百度百科,防止被屏蔽 2.使用css选择器过滤掉含有指定内容的词条 3.指定递归搜索深度,以控制词条相关度 4.缓存搜索过的词条,不再进行重复搜索 5.缓存符合要求的已经记录的词条ID,不再重复记录 6.指定网页中必须包含哪些关键字中的一个#!/usr/bin/env python3import urllib.requestfrom bs4 import Be原创 2017-03-13 14:02:47 · 1606 阅读 · 0 评论 -
按关键字爬取百度图片
使用requests包与百度图片服务器进行交互,得到返回的json数据后进行解析,最终获得百度图片的实际地址import requestsfrom fake_useragent import UserAgentdef imgUrls(keyWord, userAgent, pn=0, rn=30): url = 'https://image.baidu.com/search/index'原创 2017-04-21 17:47:06 · 2851 阅读 · 0 评论