
爬虫
岁月如梭518
喜欢对新知识的探索,对大数据的爬取,清晰,可视化方面的内容比较感兴趣。
使用博客的目的:人到中年,记忆力逐渐衰退,看完、学完的知识很快就忘了,为提高学习效果,加深对所学知识的理解,每天坚持抽点时间将所学东西梳理下。
展开
-
爬虫实例6(获取哔哩哔哩网站《后浪》弹幕并可视化显示)(pyecharts词云,pandas库)
声明,只用于学习研究爬虫1.《后浪》弹幕词云如下2.代码流程一是分析网站,弹幕是和视频是分离,在开发者工具里面找到弹幕的网址。二是请求网站。获取到网址后request三是解析网站四是制作词云3.完整代码#!/usr/bin/python#导入相关库import requests,json,pandasfrom bs4 import BeautifulSoupfrom pyecharts import WordCloud#请求网页def get_html(url):原创 2020-05-10 13:04:17 · 1121 阅读 · 1 评论 -
爬虫实例5(爬取房天下二手房信息)(网页重定向,字典数据存入csv文件,bs4)
爬取要点分析1.网页重定向分析房天下网站,每个网页有个重定向如:访问https://cd.esf.fang.com/chushou/3_211293494.htm会跳转至https://cd.esf.fang.com/chushou/3_211293494.htm?rfss=1-b71f212cbb874a451c-3a解决方法:在原网页源代码中找到重定向网址,request 新网址即可 response=requests.get(url,headers = headers) html=r原创 2020-05-10 10:45:03 · 2344 阅读 · 3 评论 -
爬虫实例4(抓取12306网站余票信息)
# Created by 老刘 on 2020/5/4import requestsimport jsonimport timedef getdata(): headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4...原创 2020-05-04 12:37:24 · 656 阅读 · 0 评论 -
爬虫实例3(进程池,正则表达式,json)
声明程序是改变其他作者的,主要是为了学习多进程抓取网页和正则表达式解析网页python代码import requestsimport reimport jsonfrom multiprocessing import Pool#获取网页HTMLdef get_one_page(url): headers = { 'User - Agent': 'Mozilla...原创 2020-05-03 09:38:45 · 186 阅读 · 0 评论 -
简单网络爬虫教程
爬虫使用程序来获取我们需要的网络上的内容,如文字,视频,图片等信息 等。使用工具Python3.7 Pycharm编写流程步骤一:请求网站,下载网页内容url = "http://www.baidu.com"#如果访问的网页地址有规律,可以批量的构造网页#如:urls =['http://xa.xiaozhu.com/search-duanzufang-p{}-0/'.format...原创 2020-05-01 22:47:29 · 982 阅读 · 0 评论 -
爬取网页内容实例2
简介本实例爬取了该网站有关python3的所有教程,并将其结果保存在contents.txt文件中。代码:import requests #导入网页请求库from bs4 import BeautifulSoup #导入网页解析库import parserdef start_requests(url): headers = { 'User - Agent': '...原创 2020-05-01 20:51:40 · 357 阅读 · 0 评论 -
爬取网络小说的Python代码
爬取小说《断天魂》并保存在TXT文件中# _*_ coding: utf-8 _*_import requests #导入网页请求库from bs4 import BeautifulSoup #导入网页解析库"""爬取小说《断天魂》并保存在TXT文件中"""#获取网页请求,将网页内容保存def start_requests(url): headers = { ...原创 2020-05-01 06:21:14 · 2075 阅读 · 1 评论 -
爬取网站内容实例1
最近,对爬虫比较感兴趣,感觉很神秘,很牛逼的样子,特别是别人做的周杰伦词云后,顶礼膜拜。所以就看了些资料,写了部分代码,闲来无事,就放在博客里,便于以后查用。原创 2020-05-01 06:38:10 · 357 阅读 · 0 评论