
爬虫
文章平均质量分 75
丶先森
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫豆瓣近几年的国产好作品
本来是想爬国产电影,但是发现好像不太行,我是按照年份,结果里面什么都有这就比较尴尬了import requestsimport stringfrom bs4 import BeautifulSoupimport pandasimport timeimport numpy as npimport xlsxwriterimport removie_select=[]#修改请求头文原创 2017-02-17 19:28:34 · 812 阅读 · 0 评论 -
HDU3410 Passing the Message(单调队列模板)
Passing the MessageTime Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 715 Accepted Submission(s): 471Problem DescriptionWhat a sunny d原创 2017-03-02 23:45:56 · 312 阅读 · 0 评论 -
python模拟掷骰子
from random import randintimport pygalclass Die(): def __init__(self,num_side=6): self.num_side=num_side def roll(self):#模拟骰子投出点数 return randint(1,self.num_side);die1=Die()原创 2017-04-15 10:39:58 · 14265 阅读 · 1 评论 -
抓取股票当日信息
股票代码来源东方财富网,详细信息来自QQ股票import requestsfrom bs4 import BeautifulSoupimport reimport tracebackimport timeimport numpy as np#修改请求头文件,避免封IPhds=[{'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT原创 2017-12-11 16:36:22 · 977 阅读 · 2 评论 -
抓取淘宝某类商品名称和价格
import requestsimport reimport timedef getHTMLText(url): try: r = requests.get(url, timeout = 30)#设定超时时间 r.raise_for_status() r.encoding = r.apparent_encoding原创 2017-11-27 22:33:21 · 5447 阅读 · 0 评论 -
Pycharm中的scrapy安装教程
原文链接: 点击打开链接在利用pycharm安装scrapy包是遇到了挺多的问题。在折腾了差不多折腾了两个小时之后总算是安装好了。期间各种谷歌和百度,发现所有的教程都是利用命令行窗口安装的。发现安装scrapy需要的包真是多的要死啊。没有专门针对pycharm安装的。因此这里将自己的安装经验分享一下,希望能帮助一些pythoner少走一些弯路(废话到此为止,下面正题。。) 首先呢转载 2018-01-24 17:51:29 · 667 阅读 · 0 评论 -
爬虫爬取音悦台mv排行榜(包括使用代理ip,修改请求头)
此爬虫基于BeautifulSoup4为基础情况下,模仿scrapy的结构进行编码在代码里增添了两个额外的py代码第一个是resource,里面包涵请求头和代理ip,其中的代理ip可以从西刺代理中爬虫获取UserAgents =[ 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KH...原创 2018-02-12 13:10:58 · 6181 阅读 · 0 评论 -
Scrapy获取网易云音乐歌手全部歌曲(excel存取)
前言:这个爬虫是为了之后爬取10W以上评论的歌曲做一下准备,这次以网易云音乐中的林俊杰为实验例子爬虫思路:爬取思路上,需要先通过歌手的所有专辑页面,获取到歌手的每个专辑的id,通过专辑的id转到专辑的界面,在专辑中获取歌曲id,转到歌曲界面后,我们就可以抓取歌曲上的信息了,不包括评论数,评论数是在另外的页面爬虫过程:首先展示一下爬虫的item部分class WangyimusictestItem(...原创 2018-02-16 20:20:48 · 2881 阅读 · 0 评论