
爬虫
用python爬虫的个人笔记
这题要怎么做
不止机器学习
展开
-
python自动获取B站弹幕并生成词云
这是关于python自动获取B站弹幕并生成词云的小例子1、思路用requests获取B站的网页内容用BS来解析网页内容,并获得弹幕将弹幕保存本地txt中读取txt采用wordcloud生成词云2、导入库# -*- coding=utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport reimport jieb...原创 2020-04-22 22:18:40 · 1060 阅读 · 0 评论 -
如何自动下载网易云音乐评论
本次例子是如何用Selenium来自动获取网易云某首歌的评论例如许飞的父亲写的散文诗:https://music.163.com/#/song?id=417250673。1、准备工作首先需要下载chromedrive,并需要在代码里指定路径,chromedrive版本号需要对应。from selenium import webdriverdriver = webdriver.Chrom...原创 2020-04-21 17:08:08 · 759 阅读 · 0 评论 -
爬取软科中国最好大学排名
这个例子是用request+bs+re来获取2016年的软科最好的大学排行榜需要爬取的网页:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html。爬取的内容:1、导入库# -*- coding=utf-8 -*-import requestsfrom bs4 import BeautifulSoupimport bs4impor...原创 2020-04-21 16:54:33 · 1193 阅读 · 0 评论 -
如何用Python自动下载想要的百度图片
这个例子网上很多,我主要参考了:https://www.geek-share.com/detail/2788246674.htmlhttps://www.zhihu.com/question/27621722/answers/updatedhttps://blog.youkuaiyun.com/weixin_44318830/article/details/102807980https://www.j...原创 2020-04-19 17:00:27 · 379 阅读 · 0 评论 -
如何进行爬虫?(1)——了解网页
用Python 爬虫一个重要的地方就是需要了解网页信息。1 了解网页网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)。1.1 HTMLHTML 是整个网页的结构,相当于整个网站的框架。带“<”、“>”符号的都是属于 HTML 的标签,并且标签都是成对出现的。常见的标签如下:<html>..</html&g...原创 2020-04-17 16:08:01 · 564 阅读 · 0 评论 -
如何爬虫?(2)——爬虫流程
1.引入模块# -*- coding:UTF-8 -*-import requestsimport sysimport reimport urllib.request,urllib.errorimport xlwtfrom bs4 import BeautifulSoupimport sqlite32.简单流程def main(): baseurl = 'https:...原创 2020-04-18 16:28:04 · 1191 阅读 · 1 评论 -
爬虫之Requests入门
requests.get()requests.get()是常用的方法。Response对象包含爬虫返回的内容。r = requests.get(url = 'https://www.baidu.com/')print(type(r))输出<class 'requests.models.Response'>requests属性编码方式r.encoding ='...原创 2020-04-19 11:30:25 · 240 阅读 · 0 评论