- 博客(9)
- 收藏
- 关注
原创 Scrapy-Redis分布式爬虫
当我们了解了Scrapy爬虫框架的用法过后,这些框架都是在同一台主机上运行的,爬取效率比较有限。如果能够用多台主机协同爬取,那么爬取效率必然会成倍增长,这就是分布式爬虫的优势。这里我们就来了解一下分布式爬虫的基本原理,以及 Scrapy 实现分布式爬虫的流程。
2024-06-23 16:01:36
2485
原创 大数据实战项目-招聘网站职位分析
本项目是以国内某互联网招聘网站全国范围内的大数据相关招聘信息作为基础信息,其招聘信息能较大程度地反映出市场对大数据相关职位的需求情况及能力要求,利用这些招聘信息数据通过大数据分析平台重点分析一下几点:分析大数据职位的区域分布情况分析大数据职位薪资区间分布情况分析大数据职位相关公司的福利情况分析大数据职位相关公司技能要求情况。
2024-06-11 13:33:09
1922
原创 Linux环境下下载mysqlclient失败解决办法
我在linux环境下载进行pip install mysqlclient时候会尝试所有版本并且下载失败。在mysqlclient下载官网上找到解决办法。在Red Hat/Centos系统下。下载前我们需要先下载一些包。在Ubuntu系统下。
2024-06-09 17:29:26
343
2
原创 异步爬虫(附爬取表情包实例)
异步爬虫是一种利用异步编程技术实现的网络爬虫程序。相比于传统的同步爬虫,异步爬虫在数据获取和处理方面具有更高的效率和灵活性。我们用一个简单的异步爬虫实例,用于抓取表情包网站上面的表情包。
2023-11-09 18:35:24
836
1
原创 大数据采集第一章课后习题
你搭建web服务器,建了一个网站。服务器的日志文件自动记录了每一个访问的IP地址等信息。现在要对这些信息进行收集,属于A、B、C、D、正确答案: A2你想做一个项目,收集某房产网站上的租房信息,这种数据采集属于A、B、C、D、正确答案: C3某单位的数据库中,关于“性别”的信息有多重表达样式,比如“男”,“女”,“Man”,“Women”,对这些信息的规范化,属于A、B、C、D、正确答案: B4将多源数据(比如不同种类的数据库,文件等),组成统一视图,属于A、B、C、D、正确答案: B。
2023-09-17 16:31:11
1481
1
原创 Hadoop的安装实验报告
如果读者正在使用Linux操作系统,则不需要了解Windows系统上的Linux虚拟机安装方法;鉴于目前很多读者正在使用Windows操作系统,因此,为了完成本书的后续实验,这里有必要通过本实验让读者掌握在Windows操作系统上搭建Linux虚拟机的方法。VMware Workstation Player软件的下载地址: https://www.vmware.com/products/workstation-player/workstation-player-evaluation.html。
2023-05-12 18:44:33
8642
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人