SLASH_W1-优快云博客

该网站是一个诗词名句网站，网页打开之后是既含中文也含英文，但是爬取结果只能显示英文，中文会出现乱码。网页本身爬取结果乱码修正后代码import requestsfrom bs4 import BeautifulSoup# 对首页页面进行抓取headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome

2022-01-06 21:04:51 1143 2

原创爬虫_bs4

数据解析原理：标签定位；提取标签、标签属性中存储的数据值。bs4进行数据解析的原理：实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中；通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装：BeautifulSoup存在于bs4这个模块中，所以要先安装bs4，同理安装lxml是一个解析器如何实例化BeautifulSoup对象：（1）from bs4 import BeautifulSoup（2）对象实例化：将本地.

2022-01-04 23:13:25 737

原创聚焦爬虫糗事百科图片抓取分页

把糗事百科页面翻到最底部可以看到一共有13页，现在打开第2，3页，看到上面的网址会变为https://www.qiushibaike.com/8hr/page/2/和https://www.qiushibaike.com/8hr/page/3/，改变的只有页码，所以就可以在指定url时，设置一个通用的url模板。爬取结果：代码：import requestsimport reimport os# 创建一个文件夹，保存所有图片if not os.path.exists('./qiutulib

2021-12-30 22:14:51 455

原创聚焦爬虫__糗事百科图片抓取

要想使用聚焦爬虫，就先通过通用爬虫将整张页面爬取下来。数据解析原理概述：解析的局部文本内容都会在标签之间或标签对应的属性当中进行存储；进行指定标签的定位；标签或标签对应属性所存储的数据进行提取；基于聚焦爬虫的编码流程：指定url;发送请求；获取响应数据；数据解析；持久化存储图片是一个二进制数据，有对应的url去标识...

2021-12-30 21:18:46 467

原创国家要监督管理总局信息爬取

爬取药监局的企业详情数据的第一页及分页设置药监管总局官网点击每一个企业都会跳转页面，进入到该企业的详细数据页，以第一个为例我们要爬取的就是每个企业的详细数据，就需要找到官网页面的url和每家企业的详情页url之间的关系。打开官网页面的开发者模式，可以看到发送的是post请求，json格式数据，并且url携带多个参数，需要进行参数封装打开响应数据response可以看到响应数据的json格式，现在需要将这些响应数据复制到在线JSON校验格式化中进行校验，对其进行分析，发现每家企业都对应唯

2021-12-23 23:14:49 2078 3

原创豆瓣电影详情数据爬取

这次的爬虫我们来看url携带多个参数的页面爬取打开豆瓣电影排行榜官网，这里我选择了喜剧类型，发现只要将鼠标下滚翻到该页面最底部，滚轮就会重新跳到中间，相当于浏览器又发送了请求，重新加载一个页面，对应打开该网页的开发者模式，可以看到是get请求，并且携带多个参数，所以需要继续声明一个字典对其进行封装。import requestsimport jsonget_url='https://movie.douban.com/j/chart/top_list'#原来的URL是https://movi

2021-12-23 12:03:16 2170

原创入门级爬虫

近期学了一些爬虫小程序，懒得手写，写篇博客记录自己的收获首先来写爬虫的大概步骤指定url发送请求获取响应数据持久化存储基础版爬虫# 写爬虫之前要先配置环境，需要安装发送请求包requestsimport requestsurl="https://www.taobao.com/"# 打开开发者模式，可以看到浏览器发送的是get请求，此时调用requests中的get方法发送请求，请求成功之后才会出现响应数据，这里用response去接收response=requests.get(ur

2021-12-23 10:46:48 558

原创百度翻译结果爬取

加强版爬虫在百度翻译搜索框中输入关键字，得到响应页面的局部文本数据，即关键字翻译结果。要实现这样的功能本来是需要解析数据才可以得到，现在我们换一种方法，首先分析百度翻译的页面，每搜索一个关键字就进行一次局部刷新，实现页面局部刷新，就要用到AJAX请求。输入的关键字是python，打开对应网页的开发者模式，先找到1选项卡XHR，然后找到3框数据包查看，发现是post请求，服务器端响应回客户端的数据类型是json格式，并且该请求携带参数，对应2可查看携带参数是否为python，那么它就是我们要找的AJAX数

2021-12-23 10:43:45 651

原创爬虫视频总结

从爬取淘宝保存为csv文件这个案例来讲。迫于B站视频上传C站审核不通过，只能直接上文字版链接了。基础版写爬虫：https://www.bilibili.com/video/BV1CW411C7ZM?spm_id_from=333.999.0.0进阶版面向对象写爬虫：https://www.bilibili.com/video/BV1VW411y7Cd?from=search&seid=2911900904516132152&spm_id_from=333.337.0.01、 IDE（集

2021-12-21 17:39:51 465

原创爬取某城市一个月内的天气情况

前段时间面试了伊利集团，领导现场出题，让我爬取天气网站上的城市降水量，这里我做了一个简单的爬取呼和浩特市一个月内的天气情况的爬虫小程序，最终结果是保存在一个txt文件夹中，感兴趣的各位可以参考一下。（当然程序我也是参考了别人的，嘿嘿嘿！！）爬虫的整体原理可以参考我的上一篇博客，是我从b站上看视频做的一点总结，想快速上手爬虫的小伙伴快来！！程序底层框架（一）导入所需库这里我们导入需要的第三方库和内库requests这个是第三方库，需要自行安装，pip一下，它主要用来发送请求re这是一个内库，

2021-12-01 23:09:45 1444 2

原创 txt文件转csv文件乱码问题

新建文本文件这里我们新建一个记事本，注意里面的表格属性（列）之间要用英文的逗号隔开，现在我们把它保存，转换为一个csv文件转换为csv文件直接重命名文件扩展名即可，我们打开csv文件，发现是乱码修改编码方式我们继续将文件扩展名改为txt，打开后另存为，发现他的编码方式是UTF-8，我们将其修改为ANSI即可再次重命名为csv文件，打开就不会出现乱码...

2021-11-30 08:38:11 6764 1

原创 Xpath helper下载安装使用

一、Xpath helper下载地址：Xpath helper提取码：337b二、解压将下载的.crx文件后缀改为.rar格式，然后新建一个文件夹将其放入，解压到当前文件夹三、谷歌浏览器开启开发者模式依次点击右上角三点——>设置——>扩展程序——>加载已解压的扩展程序——>选择刚才新建的文件夹即可四、使用首先需要按F12打开网页开发者模式，找到对应需要解析部分的位置，然后右击选择Copy XPath即可快捷键Ctrl+Shift+X打开XPath解析器，

2021-11-28 23:21:42 5590

原创 Flourish

这是哪里来的宝藏，之前一直刷到各个国家近年来的GDP排名（数据可视化）动态展示图，不明白是怎么做到的，原来不用敲代码这是国外的网站Flourish直接搜进入官网按要求注册选择对应模板创建项目就可以，里面有需要的GDP数据，什么都别说，先来体验一把。下面是一个静态的效果图，动态导出需要会员（捂脸）...

2021-10-06 21:45:55 626

原创大数据基础与应用

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、初识大数据与Python语言1.1大数据的定义1.2.大数据的应用场景1.2.大数据分析流程二、Python大数据基础2.1数据类型2.2数据结构2.3Python数据结构与数据存储2.1数据类型2.读入数据九、大数据应用案例前言提示：这里可以添加本文要记录的大概内

2021-08-11 22:24:27 1843

原创数据结构---算法

一、抽象数据类型=逻辑结构+抽象运算ADT <抽象数据类型名>{数据对象：<数据对象的定义>数据关系： <数据关系的定义>基本操作： <基本操作的定义>}（其中数据对象和数据关系就是逻辑结构，基本操作就是抽象运算）抽象数据类型中对数据对象和数据运算的声明，将对数据对象的表示和数据运算的实现分离。二、抽象数据类型的两个重要特征数据抽象用ADT描述程序处理的实体时，强调的是其本质特征，其所能完成的功能，以及他和外部用户的接口数据封装将实

2021-07-29 22:20:54 635

原创数据可视化之FineBI

宝藏数据可视化工具，建议各位立马收藏！！！1、吃饭工具FineBI官网下载链接http://www.finebi.com/product/download/2、安装教程https://blog.youkuaiyun.com/weixin_34257076/article/details/859780393、部分Demo界面展示这是一个门店销售数据的统计，FineBI非常容易上手，拖拽即能做出很多炫酷可视化效果图，超赞。不相信可以点这里...

2021-07-18 18:15:26 428

原创中国移动----5G简介

中国移动、中国联通、中国电信合称中国三大运营商。中国移动日前已建成5G基站近30万个，覆盖300余城市，发展5G套餐用户超8400万，作为全球5G网络覆盖广、用户规模大的通信运营商，中国移始终大力推进5G融百业、好网入万家、人人享5G的新时代进程!名词解释5G：第五代移动通信技术，是最新一代的数字蜂窝网络技术，于2019年开始在世界各地进行大规模部署基站：移动设备接入互联网的接口设备（基站包含信号塔，基站可以是信号塔，但信号塔不一定是基站）信号塔：接收或发送信号的设备，主要用于安装基站中的天线G

2021-06-08 21:17:41 2191

原创知识的搬运工之word小技巧

近期写毕业论文get到的word中的几个小技能，与大家分享如果遇到不认识的字但是又想要用拼音输入，在中文输入法下先输入u然后将字拆分为自己认识的几个部分依次输入即可，例如：想要输入“颀”，它是由斤和页组成，我们可以这样输入：ujinye论文插入目录时一级标题里含有英文单词，在标题中都是小写，但是插入目录时就全部变成大写，这个问题可以通过选中要修改的单词，右键–字体–全部小型大写字母，前面取消打钩即可在公式后面添加公式编号：假设给a+b添加（1.1）的编号，选中a+b (1.1)—打开段

2021-05-15 22:54:31 214 1

原创中信银行柜员岗面试总结

2021年4月21日，参加中信银行柜员面试，我听说的都是无领导小组面试，但是今天中信银行让我感受了一场与众不同的面试，玩沙盘推理游戏，我们小组一共8个人，沙盘题目是采矿，售卖，最后看哪个小组的收益最大。一共有6个角色，我们只选了老板、股东、销售、财务、运营5个角色，鉴于大家都是学金融领域的同学，只有我是学计算科学的，对于沙盘模拟游戏不是很了解，我就是妥妥的运营代表，刚开始我都不知道运营是干什么的，真是四年书白读了，现在我给大家说明一下，运营到底是干什么的：运营：是产品与用户之间的联系纽带，为了更好的连接

2021-04-26 09:08:59 1071

原创 ImportError: cannot import name ‘evaluate‘ from ‘surprise‘解决方案

报错：用svd算法做推荐系统时候导入evaluate库的时候总是遇到这个报错Cannot find reference ‘evaluate’ in ‘init.py | init.py’原因根据官方文档，evaluate()方法在1.0.5版中已弃用（功能上已由model_selection.cross_validate()取代），并在1.1.0版中删除（可能已安装）解决方案所以将from surprise import evaluate 换成from surprise.model_select

2021-04-17 21:24:51 1635

原创中国联通大数据挖掘与建模面试题目总结

今天面试了中国联通公司，我的专业是信息与计算科学（云计算与大数据方向），面试岗位是大数据挖掘与建模。面试形式是抽签决定面试顺序，然后抽取面试题目，在上一位面试者面试时间内准备面试题目的答案，进去直接陈述答案，无需自我介绍，最后面试官会问几个其他问题，一共三分钟。下面将我的面试整个过程整合如下，总结自己，同时帮助他人：抽取题目为：问：数字经济的基础是什么？数字经济为社会带来什么价值？答：首先我们知道数字经济是一个经济学概念。数字经济依托信息技术和互联网络，提高经济运转效率，实现社会生产、资源合理分配

2021-04-17 13:37:20 3156

原创基于人工智能的盲人阅读器

本文在原码基础上做出很多修改，很感谢博主提供项目开发基础，有读者如果想看原文请点击原文链接：https://blog.youkuaiyun.com/aqqwvfbukn/article/details/106349903.文章目录引言编写目的背景一、软件概述（一）名称（二）简介二、运行环境（一）系统版本（二）运行内存（三）Python版本（四）接口外部接口内部接口三、整体设计（一）音乐播放模式流程图展示：开发流程说明：（二）人机交互模式流程图展示：开发流程说明：（三）书籍阅读模式流程图展示：开发流程说明：（四）新闻播

2021-04-14 12:31:02 2673 1

qq_45086757的博客

原创【无标题】

原创 Python抓取含中文网页乱码解决