
python爬虫
文章平均质量分 93
记录爬虫中遇到的问题
风雨等归期
这个作者很懒,什么都没留下…
展开
-
xpath爬取好大学网站数据
xpath爬好大学网站from lxml import etreeimport pymongofrom config import *import requests# 连接mongoDB数据库client = pymongo.MongoClient(MONGO_URL,connect=False)db = client[MONGO_DB]def get_page(year): url = "http://www.zuihaodaxue.cn/zuihaodaxuepaiming原创 2020-07-31 10:22:56 · 457 阅读 · 0 评论 -
python爬取哔哩哔哩网站数据以及弹幕
首先要爬取哔哩哔哩网站的数据 , 第一步就是要分析网页,找到网上ajax异步加载的数据 即json文件,找到后还要对其爬去,这里我选正则表达式爬去网页, 其次是 对爬取的数据进行清洗,防止脏数据对生成的词云造成影响,将清洗完的的数据存入MongoDB数据库中 最后是 利用woldcould这个库 对弹幕进行词频统计最后利用matplotlib库生成词云图片blibli.pyimport requestsimport jsonimport reimport pymongoi.原创 2020-07-25 18:21:08 · 2697 阅读 · 0 评论 -
python selenium使用练习
1.获取cookie值from selenium import webdriverfrom multiprocessing import Pooldriver=webdriver.PhantomJS()url="https://www.zhipin.com/c100010000/?query=python&page=1&ka=page-1"driver.get(url)...原创 2020-04-10 16:03:12 · 396 阅读 · 0 评论 -
用xpath爬取Boss招聘网
学到的知识:1.对xpath的使用有了一些基本的了解2.python中的zip()可以压缩数据代码import requestsimport jsonfrom urllib.parse import urlencodefrom lxml import etreefrom multiprocessing import Poolfrom config import *import...原创 2020-03-07 17:01:22 · 881 阅读 · 1 评论 -
使用代理ip池爬取网页
1.在github上下载一个获取IP代理池的程序https://github.com/Python3WebSpider/ProxyPool上面有使用教程例子使用方法:proxy_pool_url = 'http://localhost:5555/random'proxy = Nonedef get_proxy(): try: response = requ...原创 2020-03-03 23:13:02 · 1458 阅读 · 0 评论 -
python爬取今日头条图片
有关问题:在爬取json数据的时候经常会遇到返回的数据不全或者为空解决办法:注意headers里的cookie字段,每隔一段时间就会改变。最好选用火狐浏览器里的headers全部复制,我之前就是用的谷歌爬取但是会有一个timestamp时间戳导致爬取的json为空收获:下载图片时要以二进制获取并保存。确定字段存在if data and ‘sub_images’ in data.ke...原创 2020-03-02 12:32:59 · 1652 阅读 · 5 评论 -
正则表达式爬取猫眼电影网
有关一些注意的问题:(一):在爬虫的时候我经常会遇到一些爬取的内容与网页原内容不一样(缺少一些内容)解决办法:1.有可能是你的IP被网站识别认为是爬虫然后采取反扒机制,这个时候我们需要使用代理IP, 最好的办法就是换成你的手机热点连接。2.可能是爬取速度过快有些内容还没被加载出来这个时候需要加入timeout=等待爬取时间(二):爬取不到任何内容解决办法:1.加入header伪装...原创 2020-02-29 20:12:03 · 614 阅读 · 0 评论