
Python爬虫
爬虫实战
BugMiaowu2021
喵喵喵(^・ェ・^)!博客所有代码均亲手运行成功。所有解决问题方案均亲手试验成功!
展开
-
Python爬虫之小米应用商店
小米应用商店的爬虫,提取各个App的下载链接。源码:# -*- coding: UTF-8 -*-import requestsimport csvimport queueclass XiaoMiShop(): def __init__(self, category): self.base_url = 'http://app.mi.com/categotyAllListApi' self.base_download = 'http://app.mi.原创 2021-03-01 10:57:34 · 1909 阅读 · 3 评论 -
Python爬虫之酷安应用商店
酷安应用商店的爬虫,提取各个App的下载链接。源码:# -*- coding: UTF-8 -*-import requestsimport queueimport threadingimport refrom lxml import etreeimport csvfrom copy import deepcopyclass KuAn(object): def __init__(self, type, page): self.type = type原创 2021-03-01 10:36:15 · 1144 阅读 · 4 评论 -
Python爬虫之一键保存全部必应高清1080P壁纸
视频截图:源码及注释:index.html<!DOCTYPE html><html lang="zh"><head> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=device-width, initial-scale=1.0"原创 2021-02-28 21:41:16 · 1779 阅读 · 9 评论 -
Python爬取《你好李焕英》豆瓣短评并基于SnowNLP做情感分析
爬取过程在这里:Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析。依赖库:豆瓣镜像比较快:pip install snownlp -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple初识SnowNLP:SnowNLP是一个常用的Python文本分析库,是受到TextBlob启发而发明的。由于当前原创 2021-02-27 02:08:47 · 10459 阅读 · 11 评论 -
用Python词云看电影--生而为人,对不起
选取的是《被嫌弃的松子的一生》词云效果:完整代码:# 分析豆瓣被嫌弃的松子的一生的影评,生成词云# https://movie.douban.com/subject/1787291/comments?start=20&limit=20&status=P&sort=new_score# url = 'https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_sc原创 2021-02-26 18:34:09 · 423 阅读 · 1 评论 -
关于爬取网易云全部评论的一些疑问
这是邓丽君的南海姑娘,102页,2035条评论,查了第一页,最后一页,搜了下50页以及53页的评论,都在,应该是全部爬取了。这是柏松的世间美好与你环环相扣,2万+页,42万+条评论,每次需要爬了好几个小时。其中白天爬了3次,均成功,夜间爬了3次,均远程中断。看这页数,明显没有爬完果然,中间断了1年半的评论没有爬取。。原因应该是在第一个参数上,offset的问题。现在没空研究了,记录下来,以后有需求的再解决。数据在:手把手教你用Python爬取网易云40万+评论...原创 2021-02-26 16:30:18 · 590 阅读 · 3 评论 -
Python之手把手教你用JS逆向爬取网易云40万+评论并用stylecloud炫酷词云进行情感分析
文章有点长,操作有点复杂,需要代码的直接去文末即可。想要学习的需要有点耐心。当我理清所有逻辑后,我抑郁的(震惊的)发现,只需要改下歌曲ID就可以爬取其他任意歌曲的评论了!生成的TXT文件在程序同一目录。有基础的可能觉得我比较啰嗦,因为我写博客一是为了记录下知识点,在遗忘的时候可以查看回顾下。二是因为我学编程的时候,搜到的很多帖子都是半残的,有些人是为了引流到自己的公众号,有些人干脆是骗流量,有的帖子质量很好,但是对小白不太友好,没有相关基础很难复现。这样就在搜索上浪费了很多时间。我写博客尽量把每一步操作原创 2021-02-25 17:20:24 · 3204 阅读 · 11 评论 -
Python之千与千寻豆瓣短评词云秀
经典台词:1、我不知道离别的滋味是这样凄凉,我不知道说声再见要这么坚强。2、人永远不知道,谁哪次不经意的跟你说了再见之后,就真的不会再见了。3、曾经发生过的事情不可能忘记,只不过是想不起而已。4、因为遇见你,我才知道我也能拥有美丽的记忆。所以,无论你怎么对待我,我都会用心去宽恕你的恨,用心去铭记你的好。5、不要吃太胖哟,会被杀掉的!6、我只能送你到这里了,剩下的路你要自己走,不要回头。7、不管前方的路有多苦,只要走的方向正确,不管多么崎岖不平,都比站在原地更接近幸福。8、放心.原创 2021-02-24 01:17:32 · 398 阅读 · 1 评论 -
Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图
词云图:爬取过程:你好,李焕英 短评的URL:https://movie.douban.com/subject/34841067/comments?start=20&limit=20&status=P&sort=new_score分析要爬取的URL;34841067:电影IDstart=20:开始页面limit=20:每页评论条数代码:url = 'https://movie.douban.com/subject/%s/comments?start=原创 2021-02-23 12:10:28 · 4073 阅读 · 3 评论 -
Python爬取你好李焕英豆瓣短评生成词云
爬取过程:你好,李焕英 短评的URL:https://movie.douban.com/subject/34841067/comments?start=20&limit=20&status=P&sort=new_score分析要爬取的URL;34841067:电影IDstart=20:开始页面limit=20:每页评论条数代码:url = 'https://movie.douban.com/subject/%s/comments?start=%s&limi原创 2021-02-23 11:25:16 · 2759 阅读 · 5 评论 -
Python文本分析之常用最全停用词表(stopwords)
"#$&'()*+,-./0123456789:;<=>?@[]_}·×ΔΨγμφВ—‘’“”℃Ⅲ↑→≈①②③④⑤⑥⑦⑧⑨⑩■▲、。〉《》」『』【】〔〕㈧一上下不与且个临为乃么之乎乘也了于些亦人今仍从他以们任会但何你使依俺倘借像儿兮其内再冒冲几凡原创 2021-02-23 09:47:21 · 8433 阅读 · 4 评论 -
Python爬虫实战源码合集(持续更新)
Python爬取唐人街探案3豆瓣短评并生成词云10行python代码爬取百度热榜Python爬虫爬取微博热搜保存为 Markdown 文件python爬取今日热榜数据到txt文件Python爬取百度搜索风云榜实时热点原创 2021-02-23 09:31:20 · 1782 阅读 · 2 评论 -
Python爬取唐人街探案3豆瓣短评并生成词云
爬取唐人街探案3短评过程要爬取的URL:https://movie.douban.com/subject/27619748/comments?start=20&limit=20&status=P&sort=new_scoreurl = 'https://movie.douban.com/subject/%s/comments?start=%s&limit=20&sort=new_score&status=P % (movie_id, (i - 1)原创 2021-02-23 02:11:22 · 1500 阅读 · 4 评论 -
Python爬取百度搜索风云榜实时热点.
百度搜索风云榜:http://top.baidu.com/源码:import osimport jsonfrom datetime import datetimefrom datetime import timezonefrom datetime import timedeltafrom collections import OrderedDictimport requestsfrom bs4 import BeautifulSoupdef get_utc8now():原创 2021-02-21 20:13:23 · 1037 阅读 · 6 评论 -
python爬取今日热榜数据到txt文件
今日热榜:https://tophub.today/爬取数据及保存格式:爬取后保存为.txt文件:部分内容:源码及注释:import requestsfrom bs4 import BeautifulSoupdef download_page(url): headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chro原创 2021-02-21 19:48:36 · 2368 阅读 · 6 评论 -
Python爬虫爬取微博热搜保存为 Markdown 文件
微博热搜榜python爬虫,仅供学习交流源码及注释:# -*- coding=UTF-8 -*-#!usr/bin/env pythonimport osimport timeimport requestsfrom lxml import etreeurl = "https://s.weibo.com/top/summary?cate=realtimehot"headers={ 'Host': 's.weibo.com', 'Accept': 'text/html,.原创 2021-02-21 18:50:23 · 1287 阅读 · 2 评论 -
10行python代码爬取百度热榜
百度热搜榜python爬虫,仅供学习交流源码:import requestsfrom bs4 import BeautifulSoupresponse = requests.get("http://top.baidu.com/buzz?b=1")response.encoding = response.apparent_encodingsoup = BeautifulSoup(response.text, 'lxml')target = soup.find_all(attrs={"cl.原创 2021-02-21 18:32:20 · 1177 阅读 · 2 评论