
Python网络爬虫
weixin_39848830
这个作者很懒,什么都没留下…
展开
-
爬虫实战:爬取微博明星的某一条动态的粉丝评论
2018/2/27,这是我的第一篇博客,写的目的很单纯,就是记录自己学习过程中遇到的问题以及解决方法。初次学习爬虫,本人不才,代码其实也是学习一些B站视频。下面开始爬取的步骤由于是为了爬取粉丝的评论,所以我们的目标就是要找到包含评论的代码,再将其解析并保存下来1.找到代码 爬取的网页是https://m.weibo.cn/status/4160547165300149(鹿晗和关晓彤宣...原创 2018-02-27 23:01:55 · 3259 阅读 · 3 评论 -
关于爬取图片时遇到下载盗链图的解决方式
在写爬虫爬取图片时,经常会碰到盗链图的产生,无法打开,这是网站设置的反爬机制之一。为了解决这类问题,需要在头文件headers中添加Referer属性值,目的是告诉服务器当前请求是从哪个页面请求过来的'Referer':'网址'Picreferer = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (K...原创 2018-03-08 16:22:47 · 2348 阅读 · 2 评论 -
写入文件中遇到 UnicodeEncodeError: ‘gbk’ codec can’t encode character 错误的解决办法
今天爬网站的内容,在写入TXT文件时,页面总是报UnicodeEncodeError: 'gbk' codec can't encode character '\ufeff' in position 0: illegal multibyte sequence 错误,网上找了半天也没找到解决办法。后来终于找到了解决办法,十分简单:在f = open('test.txt','wt',encoding=...原创 2018-03-05 00:00:26 · 4549 阅读 · 4 评论 -
运用R和Python进行简单的拉钩网数据分析
因为找工作的关系,爬取了拉钩网上海地区的数据分析师职位,爬取时间是3月13日,爬取代码如下import requests import json import time import pymysql import random # 请求网页 def get_html(n): print('开始请求第%d页信息' % n) url = 'https://www.lagou.com/j...原创 2018-04-10 11:27:38 · 468 阅读 · 0 评论