
爬虫
用python爬虫的个人笔记
这题要怎么做
不止机器学习
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python自动获取B站弹幕并生成词云
这是关于python自动获取B站弹幕并生成词云的小例子 1、思路 用requests获取B站的网页内容 用BS来解析网页内容,并获得弹幕 将弹幕保存本地txt中 读取txt采用wordcloud生成词云 2、导入库 # -*- coding=utf-8 -*- import requests from bs4 import BeautifulSoup import re import jieb...原创 2020-04-22 22:18:40 · 1085 阅读 · 0 评论 -
如何自动下载网易云音乐评论
本次例子是如何用Selenium来自动获取网易云某首歌的评论 例如许飞的父亲写的散文诗:https://music.163.com/#/song?id=417250673。 1、准备工作 首先需要下载chromedrive,并需要在代码里指定路径,chromedrive版本号需要对应。 from selenium import webdriver driver = webdriver.Chrom...原创 2020-04-21 17:08:08 · 779 阅读 · 0 评论 -
爬取软科中国最好大学排名
这个例子是用request+bs+re来获取2016年的软科最好的大学排行榜 需要爬取的网页:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html。 爬取的内容: 1、导入库 # -*- coding=utf-8 -*- import requests from bs4 import BeautifulSoup import bs4 impor...原创 2020-04-21 16:54:33 · 1236 阅读 · 0 评论 -
如何用Python自动下载想要的百度图片
这个例子网上很多,我主要参考了: https://www.geek-share.com/detail/2788246674.html https://www.zhihu.com/question/27621722/answers/updated https://blog.youkuaiyun.com/weixin_44318830/article/details/102807980 https://www.j...原创 2020-04-19 17:00:27 · 399 阅读 · 0 评论 -
如何进行爬虫?(1)——了解网页
用Python 爬虫一个重要的地方就是需要了解网页信息。 1 了解网页 网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JScript(活动脚本语言)。 1.1 HTML HTML 是整个网页的结构,相当于整个网站的框架。带“<”、“>”符号的都是属于 HTML 的标签,并且标签都是成对出现的。 常见的标签如下: <html>..</html&g...原创 2020-04-17 16:08:01 · 586 阅读 · 0 评论 -
如何爬虫?(2)——爬虫流程
1.引入模块 # -*- coding:UTF-8 -*- import requests import sys import re import urllib.request,urllib.error import xlwt from bs4 import BeautifulSoup import sqlite3 2.简单流程 def main(): baseurl = 'https:...原创 2020-04-18 16:28:04 · 1202 阅读 · 1 评论 -
爬虫之Requests入门
requests.get() requests.get()是常用的方法。 Response对象包含爬虫返回的内容。 r = requests.get(url = 'https://www.baidu.com/') print(type(r)) 输出 <class 'requests.models.Response'> requests属性 编码方式 r.encoding ='...原创 2020-04-19 11:30:25 · 250 阅读 · 0 评论