- 博客(14)
- 收藏
- 关注
原创 Spark 以及 spark streaming 核心原理及实践
Spark引进了弹性分布式数据集RDD (Resilient Distributed Dataset) 的抽象,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“血统”(即充许基于数据衍生过程)对它们进行重建。已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。
2025-06-20 10:59:17
1823
1
原创 Spark入门到实践
Spark入门到实践一、Spark 快速入门1.1 Spark 概述1.2 Spark 最简安装1.3 Spark实现WordCount1.3.1 下载安装Scala1.3.2 添加Spark依赖1.3.3 Scala实现WordCount1.3.4 通过IDEA运行WordCount1.3.5 IDEA配置WordCount输入与输出路径1.3.6 通过IDEA运行WordCount1.3.7 查看运行结果二、Spark Core 的核心功能。
2025-06-20 10:30:34
1315
原创 Java项目开发全流程实践
具体选择什么样的设计模式,需要根据程序(系统)所处的环境、技术、资源来决定,例如:一个程序(系统)在交付日期已经确定,项目进度紧张,而技术和人力资源又出现问题的情况下,应以设计实用性、编程效率方面考虑,反之则应从可维护性和扩展性上考虑。算式计算用例包含5个子用例,其中<输入算式>用例、<算式求解>用例、<查看答案>用例和使用者有交互行为,<计算算式>用例和<扫描算式>用例为内部用例,由<算式求解>用例调用并使用,<扫描算式>用例扫描算式,如果发现算式错误,由算式求解返回错误给使用者。
2025-06-16 11:29:40
866
原创 爬虫实践】使用Python从网站抓取数据
本周我不得不为客户抓取一个网站。我意识到我做得如此自然和迅速,分享它会很有用,这样你也可以掌握这门艺术。【免责声明:本文展示了我的抓取做法,如果您有更多相关做法请在评论中分享】1.确定您的目标:一个简单的 html 网站2.在 Python 中设计抓取方案3. 跑起代码,让魔术运转您需要多少时间来抓取网站?从业者需要~10分钟为一个简单的html网站准备Python脚本。就我而言,我需要从 SWIFT 代码(或法国 BIC 代码)中收集银行名称。
2025-06-16 10:44:33
1534
原创 Hadoop完全分布式部署配置及测试示范
源文件和目标文件可以是本地文件路径或者远程主机上的文件路径. 远程主机上的文件路径格式为 [user@]host:[path],其中user是远程主机的用户名,如果未指定用户名,则使用当前登录用户的用户名. host是远程主机的地址或主机名,path是文件在远程主机上的路径.1. SSH客户端:SSH客户端是安装在本地计算机上的软件,它用于发起与SSH服务器的连接,并在连接建立后,允许用户输入用户名和密码(或使用SSH密钥)进行身份验证,然后执行远程命令或登录到远程主机。
2024-11-18 15:53:03
1262
原创 Hadoop 完全分布式部署
用于配置 YARN 的相关参数,如 ResourceManager 的地址、NodeManager 的资源分配等。
2024-11-18 15:35:49
1206
原创 Python数据分析与可视化(数据分析)
我们可以很快地发现,与其他所有相关性相比,“hoursperweek”与“educationnum”之间具有更高的相关性,但并不是很高。不过要注意的一件事是,label是分类的,因此计算相关性实际上并没有应用,采用分组频率可能是一种更好的方法。在此示例中,variable的有A,B,Ç,这是一个长格式。values参数是用于计算的列,index参数用于创建多个行的索引值,columns参数用于要在其上创建多个列的值。我们要做的是将两列传递给函数,您将获得这两个变量的所有成对组合的频数。
2024-10-30 09:56:43
1012
原创 python数据分析与可视化
数据清洗:填充缺失数据、消除噪声数据等,主要通过分析“脏数据”的产生原因和存在形式,利用现有的数据挖掘手段和方法去清洗“脏数据”,将“脏数据”转化为满足数据质量要求和应用要求的数据,从而提高数据集的质量,满足现阶段数据分析的需求。丰富的标准库和丰富的第三方库:Python 的标准库提供了大量的模块和函数,支持各种常见的任务,如文件 I/O、网络编程、数据库交互等。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
2024-06-19 14:12:03
3516
原创 neo4j教程-Cypher操作
执行上述命令后,Web UI界面的控制台返回“Added 2 labels, created 2 nodes, set 2 properties, created 1 relationship, completed after 3 ms.”信息,说明我们新增两个标签、创建两个节点、设置两个属性、创建一个关系(注意:标签Person是节点的标签;标签Likes是关系的标签)。上述语法中,DELETE是用于永久删除节点或关系的命令,该命令需要与MATCH命令结合使用,删除满足某个条件的节点;
2024-06-18 10:20:54
1900
原创 Redis安装部署(基于windows平台)
redis简介键值对存储数据库是NoSQL数据库的一种类型,也是最简单的NoSQL数据库。顾名思义,键值对存储数据库中的数据是以键值对的形式来存储的。常见的键值对存储数据库有Redis、Tokyo Cabinet/Tyrant、Voldemort以及Oracle BDB数据库。Remote Dictionary Server,简称Redis,即远程字典服务器,它是一个开源的、高性能的、基于键值对的缓存与存储数据库,并且通过提供多种键值数据结构来适应不同场景下的缓存与存储需求。
2024-06-16 11:24:28
1654
原创 爬取链家二手房房价数据存入mongodb并进行分析
实验目的1.使用python将爬虫数据存入mongodb;2.使用python读取mongodb数据并进行可视化分析。实验原理MongoDB是文档数据库,采用BSON的结构来存储数据。在文档中可嵌套其他文档类型,使得MongoDB具有很强的数据描述能力。本节案例使用的数据为链家的租房信息,源数据来自于链家网站,所以首先要获取网页数据并解析出本案例所需要的房源信息,然后将解析后的数据存储到MongoDB中,最后基于这些数据进行城市租房信息的查询和聚合分析等。实验环境Python3。
2024-06-16 10:39:57
856
原创 MongoDB分片部署(windows)
OS:win10MongoDB:4.4.24从图中可以看出,分片集群中主要由三个部分组成,即分片服务器( Shard )、路由服务器( Mongos )以及配置服务器( Config Server )组成。其中,分片服务器有三个,即 Shard1 、Shard2 、 Shard3 ;路由服务器有两个,即 Mongos1 和 Mongos2 ;配置服务器有三个,即主、副、副。主要有如下所述三个主要组件:Shard: 用于存储实际的数据块,实际生产环境中一个shard server 角可由几台机器组个一
2024-04-23 16:48:39
709
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅