
大数据
文章平均质量分 74
JavaEdge聊AI
关注并私信我,获取更多大厂求职经验。《编程严选网》创始人
展开
-
Spark SQL实战(08)-整合Hive
统计每个人爱好的个数* pk:3* 1)定义函数* 2)注册函数* 3)使用函数。原创 2023-03-26 20:04:06 · 1845 阅读 · 5 评论 -
Spark SQL实战(07)-Data Sources
Spark SQL通过DataFrame接口支持对多种数据源进行操作。DataFrame可使用关系型变换进行操作,也可用于创建临时视图。将DataFrame注册为临时视图可以让你对其数据运行SQL查询。本节介绍使用Spark数据源加载和保存数据的一般方法,并进一步介绍可用于内置数据源的特定选项。loadsave一种列式存储格式,在大数据环境中高效地存储和处理数据。由Hadoop生态系统中的Apache Parquet项目开发的。原创 2023-03-25 21:37:32 · 1717 阅读 · 0 评论 -
Spark SQL实战(06)-RDD与DataFrame的互操作
虽然这种方法更冗长,但它允许在运行时构造 Dataset,当列及其类型直到运行时才知道时很有用。使用SparkSession的createDataFrame方法将RDD转换为DataFrame。这种基于反射的方法可以使代码更简洁,在编写 Spark 应用程序时已知schema时效果很好。构造一个schema,然后将其应用到现有的 RDD。包含特定对象类型的 RDD 的schema。原创 2023-03-24 22:14:36 · 338 阅读 · 1 评论 -
Spark SQL实战(04)-API编程之DataFrame
Dataset是一个分布式数据集,提供RDD强类型和使用强大的lambda函数的能力,并结合了Spark SQL优化的执行引擎。R语言也有类似的特点。通过调用该实例的方法,可以将各种Scala数据类型(如case class、元组等)与Spark SQL中的数据类型(如Row、DataFrame、Dataset等)之间进行转换,从而方便地进行数据操作和查询。在使用许多Spark SQL API的时候,往往需要使用这行代码将隐式转换函数导入当前上下文,以获得更加简洁和易于理解的代码编写方式。原创 2023-03-24 16:17:15 · 1225 阅读 · 0 评论 -
Hive 到底有什么用?
开发无需经常编写MapReduce程序,因为网站最主要的大数据处理就是SQL分析,因此Hive很重要。随Hive普及,我们对在Hadoop执行SQL的需求越强,对大数据SQL的应用场景也多样化起来,于是又开发各种大数据SQL引擎。Cloudera开发Impala,运行在HDFS上的MPP架构的SQL引擎。原创 2022-11-27 16:36:21 · 957 阅读 · 2 评论 -
大数据开发,如何发掘数据的关系?
数据之中蕴藏关系,数据量足够大,这种关系越逼近真实世界客观规律。网页之间链接关系蕴藏着网页重要性排序关系,购物车商品清单蕴藏着商品关联关系,通过对这些关系的挖掘,可帮助我们更清晰世界规律,并利用规律提高生产效率,改造世界。挖掘数据的典型应用场景有搜索排序、关联分析以及聚类。搜索排序Hadoop最早源于Google,而Google使用大数据技术最重要场景就是网页排名。使用Google搜索时,通常在搜索前三个结果里就能找到自己想要的网页内容,而且很大概率第一个结果就是我们想要网页。而排名越往后,搜索原创 2022-05-02 12:40:53 · 2245 阅读 · 0 评论 -
解密双十一、618电商大促数据大屏指标实现原理
数据分析,大数据应用的一个主要场景,通过数据分析指标监控企业运营状态,及时调整运营和产品策略。大数据平台上运行的绝大多数大数据计算都是关于数据分析的,各种统计、关联分析、汇总报告,都需要大数据平台。运营监控那些运营数据指标,老板需要全面快速了解这些指标,以发现公司运营问题。公司角度,运营数据是公司运行发展的管理基础,既可通过运营数据了解公司目前发展的状况,又可以通过调节这些指标对公司进行管理,即数据驱动运营。而运营数据的获得,需要在应用程序中大量埋点采集数据,从数据库、日志和其他第三方采集数据,对数原创 2022-05-01 16:24:38 · 1861 阅读 · 1 评论 -
大数据技术学习带来的思考
技术场景大数据技术可分类如下:存储计算资源管理HDFS最基本的存储技术。日常应用把通过各种渠道得到的数据,如关系数据库、日志、埋点、爬虫数据都存储到HDFS,供后续使用。HBaseNoSQL英杰,可划分到存储类别,它的底层存储也用到HDFS。主要用途某些场景代替MySQL数据存储访问,利用可伸缩特性,存储比MySQL多得多的数据量。比如滴滴司机每隔几s就将当前GPS数据上传,而滴滴司机数量号称千万,每天会产生数百亿GPS数据,滴滴选择将这样海量的数据存储在HBase,当订单行程结原创 2022-04-26 22:56:48 · 3216 阅读 · 0 评论 -
HDFS伪分布式环境搭建
1 HDFS概述及设计目标1.1 什么是HDFS:Hadoop实现的一个分布式文件系统(Hadoop Distributed File System),简称HDFS源自于Google的GFS论文论文发表于2003年,HDFS是GFS的克隆版1.2 HDFS的设计目标:非常巨大的分布式文件系统运行在普通廉价的硬件上易扩展、为用户提供性能不错的文件存储服务HDFS官方文档地...原创 2021-08-14 01:27:21 · 1366 阅读 · 0 评论 -
Spark安装及启动
0 相关源码1 Spark环境安装◆ Spark 由scala语言编写,提供多种语言接口,需要JVM◆ 官方为我们提供了Spark 编译好的版本,可以不必进行手动编译◆ Spark安装不难,配置需要注意,并且不一定需要Hadoop环境下载解压tar zxvf spark-2.4.1-bin-hadoop2.7.tgz2 Spark配置◆ 在配置前尽量先阅读...原创 2019-04-09 15:40:08 · 1514 阅读 · 0 评论 -
基于Spark的机器学习实践 (七) - 回归算法
0 相关源码1 回归分析概述1.1 回归分析介绍◆ 回归与分类类似,只不过回归的预测结果是连续的,而分类的预测结果是离散的◆ 如此,使得很多回归与分类的模型可以经过改动而通用◆ 因此对于回归和分类中基本原理相同或类似的模型 ,不再赘述1.2 Spark中集成的回归算法◆ Spark实现的回归算法很丰富 ,有很多模型同样可以用于分类官方文档回归算法列表1.3 回归与分类的区...原创 2019-04-15 14:56:13 · 1605 阅读 · 0 评论 -
基于Spark的机器学习实践 (八) - 分类算法
0 相关源码1 朴素贝叶斯算法及原理概述1.1 朴素贝叶斯简介◆ 朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的一种分类方法◆ 朴素贝叶斯算法是一种基于联合概率分布的统计学习方法◆ 朴素贝叶斯算法实现简单,效果良好,是一种常用的机器学习方法1.2 贝叶斯定理◆ 朴素贝叶斯算法的一个基础是贝叶斯定理贝叶斯定理(英语:Bayes’ theorem)是[概率论]中的一个[定理],描...原创 2019-04-16 22:04:13 · 1902 阅读 · 0 评论 -
机器学习入门(二) — 回归模型 (理论)
讲述了回归模型的基本原理和算法,并结合回归介绍了交叉验证的方法1 预测房价1.1 通过相似的房子预测你的房子2 线性回归2.1 应用线性回归模型那么哪条线才是最好的呢?2.2 应用一条线的成本2.3 预测你的房价3 加入更高阶的因素3.1 用直线拟合房价或者…?3.2 如果用二次函数怎么样?3.3 更高阶的多项式4 你相信这个模型吗?显然,相比二次...原创 2018-12-08 00:06:11 · 1265 阅读 · 0 评论 -
基于Spark的机器学习实践 (二) - 初识MLlib
1 MLlib概述1.1 MLlib 介绍◆ 是基于Spark core的机器学习库,具有Spark的优点◆ 底层计算经过优化,比常规编码效率往往要高◆ 实现了多种机器学习算法,可以进行模型训练及预测1.2 Spark MLlib实现的算法◆ 逻辑回归 朴素贝叶斯 线性回归 SVM 决策树 LDA 矩阵分解1.3 Spark MLlib官方介绍1.3.1 搜索官方文档1.3...原创 2019-04-09 00:07:13 · 2261 阅读 · 0 评论 -
窥探推荐系统
本文将深入介绍推荐系统的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助用户清楚的了解和快速构建适合自己的推荐系统。1 信息发现随着 Web 2.0 的发展, Web 已经变成数据分享的平台,如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难。在这样的情形下,搜索系统(Google,Bing,百度等等)成为大家快速找到目标信息的最好途径。在用户对自己需求相...原创 2018-12-26 03:40:47 · 1235 阅读 · 0 评论 -
Spark机器学习实战 (十一) - 文本情感分类项目实战
0 相关源码将结合前述知识进行综合实战,以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联,使大家能够对Spark的具体应用有一个整体的感知与了解。1 项目总体概况2 数据集概述数据集3 数据预处理4 文本特征提取官方文档介绍提取,转换和选择特征本节介绍了使用特征的算法,大致分为以下几组:提取:从“原始”数据中提取特征转换:缩放,转...原创 2019-04-19 21:21:23 · 1469 阅读 · 0 评论 -
基于协同过滤算法的电影推荐系统设计(二) - ALS算法详解
0 系列文章目录0.1 基于协同过滤算法的电影推荐系统设计(一) - 项目简介0.2 基于协同过滤算法的电影推荐系统设计(二) - 推荐系统介绍ALS是alternating least squares的缩写 , 意为交替最小二乘法,而ALS-WR是alternating-least-squares with weighted-λ -regularization的缩写,意为加权正则化交替最...原创 2019-03-01 16:04:06 · 5404 阅读 · 0 评论 -
基于Spark的机器学习实践 (十) - 降维
通过讲解PCA算法的原理,使大家明白降维算法的大致原理,以及能够实现怎么样的功能。结合应用降维算法在分类算法使用之前进行预处理的实践,帮助大家体会算法的作用。0 相关源码1 PCA算法及原理概述1.1 何为降维?◆ 从高维度变为低维度的过程就是降维◆ 例如拍照就是把处在三维空间中的人或物从转换到作为二 维平面的照片中◆ 降维有线性的、也有非线性的方法。在机器学习中可以简化运算,减少...原创 2019-04-18 16:00:18 · 1196 阅读 · 0 评论 -
基于Spark的机器学习实践 (九) - 聚类算法
0 相关源码1 k-平均算法(k-means clustering)概述1.1 回顾无监督学习◆ 分类、回归都属于监督学习◆ 无监督学习是不需要用户去指定标签的◆ 而我们看到的分类、回归算法都需要用户输入的训练数据集中给定一个个明确的y值1.2 k-平均算法与无监督学习◆ k-平均算法是无监督学习的一种◆ 它不需要人为指定一个因变量,即标签y ,而是由程序自己发现,给出类别y...原创 2019-04-17 18:51:53 · 1549 阅读 · 0 评论 -
人工智能导论 (五) - 搜索求解策略
1 搜索的概念盲目搜索与启发式搜索2 状态空间知识表示法2.1 状态空间的表示法2.2 状态空间的图描述3 启发式图搜索3.1 启发式策略运用启发式策略的两种基本情况3.2 启发信息和估价函数3.2.1 启发信息3.2.2 估价函数注意八数码问题的启发函数3.3 A搜索算法3.4 A*搜索...原创 2018-12-21 05:17:16 · 2792 阅读 · 0 评论 -
可能是推荐系统最详细且简单的入门教程
本文将深入介绍推荐系统的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助用户清楚的了解和快速构建适合自己的推荐系统。1 信息发现随着 Web 2.0 的发展, Web 已经变成数据分享的平台,如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难。在这样的情形下,搜索系统(Google,Bing,百度等等)成为大家快速找到目标信息的最好途径。在用户对自己需求相...原创 2019-05-05 21:03:04 · 6764 阅读 · 0 评论 -
基于Spark的机器学习实践 (六) - 基础统计模块
0 相关源码1 基础统计模块及常用统计学知识介绍◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分◆ Basic Statistics主要包括Correlation 与Hypothesis testing等◆ 其大多被封装在orq.apache spark.mllib.stat._ 中1.1 基础统计学知识1.1.1 常用的统计学知识◆ 描述性统...原创 2019-04-12 19:04:17 · 1197 阅读 · 1 评论 -
基于Spark的机器学习实践 (04)-数据可视化
0 相关源码1 数据可视化的作用及常用方法1.1 为什么要数据可视化1.1.1 何为数据可视化?◆ 将数据以图形图像的形式展现出来◆ 人类可以对三维及以下的数据产生直观的感受1.1.2 数据可视化的好处◆ 便于人们发现与理解数据蕴含的信息◆ 便于人们进行讨论1.2 数据可视化的常用方法◆ 对于web应用,一般使用echarts,hightcharts,d3.js等◆ 对于...原创 2019-04-09 17:26:55 · 3585 阅读 · 1 评论 -
毕业设计之基于协同过滤算法的电影推荐系统设计(一) - 项目简介
由于本人今年毕业,为完成毕设特地想着实现一个简单的推荐系统设计,思来想去,小电影不就是很好的切入点嘛!于是诞生该项目,将会一步步带着大家实现一个自己的电影推荐系统.1 研究目标从应用场景来看,基于内容的推荐算法更多地适用于用户根据关键字或者电影名字来搜索相应的电影,然后推荐系统来进行相应的推荐。基于需求个性角度来看,基于内容的推荐算法还不够个人化,用户需要的是更加符合个人偏好的推荐结果,可...原创 2019-03-01 14:21:44 · 21323 阅读 · 3 评论 -
Spark机器学习实战 (十二) - 推荐系统实战
0 相关源码将结合前述知识进行综合实战,以达到所学即所用。在推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统。1 推荐系统简介1.1 什么是推荐系统1.2 推荐系统的作用1.2.1 帮助顾客快速定位需求,节省时间1.2.2 大幅度提高销售量1.3 推荐系统的技术思想1.3.1 推荐系统是一种...原创 2019-04-21 14:23:08 · 1907 阅读 · 0 评论 -
ALS算法解析
1 前言Spark平台推出至今已经地带到2.4.x版本,很多地方都有了重要的更新,加入了很多新的东西。但是在协同过滤这一块却一直以来都只有ALS一种算法。同样是大规模计算平台,Hadoop中的机器学习算法库Mahout就集成了多种推荐算法,不但有user-cf和item-cf这种经典算法,还有KNN、SVD,Slope one这些,可谓随意挑选,简繁由君。我们知道得是,推荐系统这个应用本身...原创 2019-05-06 19:33:30 · 6243 阅读 · 0 评论 -
基于协同过滤算法的电影推荐系统设计(二) - 推荐系统介绍
本文将深入介绍推荐系统的工作原理,和其中涉及的各种推荐机制,以及它们各自的优缺点和适用场景,帮助用户清楚的了解和快速构建适合自己的推荐系统。0 系列文章目录0.1 基于协同过滤算法的电影推荐系统设计(一) - 项目简介1 主动发现信息随着 Web 2.0 的发展, Web 已经变成数据分享的平台,如何让人们在海量的数据中想要找到他们需要的信息将变得越来越难。在这样的情形下,搜索系统(...原创 2019-03-01 14:38:48 · 29219 阅读 · 6 评论 -
吴恩达机器学习 Coursera 笔记(二) - 单变量线性回归
Model and Cost Function1 模型概述 - Model RepresentationTo establish notation for future use, we’ll usex(i)denote the “input” variables (living area in this example), also called input features, and...原创 2018-12-19 00:50:39 · 1149 阅读 · 0 评论 -
macOS下 Hive 2.x 的安装与配置
1 简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的[SQL]查询功能,可以将SQL语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种...原创 2019-04-22 15:28:41 · 1067 阅读 · 0 评论 -
Python分布式爬虫框架Scrapy 打造搜索引擎(四) - 爬取博客网站
相关源码搭建scrapy的开发环境,本文介绍scrapy的常用命令以及工程目录结构分析,本文中也会详细的讲解xpath和css选择器的使用。然后通过scrapy提供的spider完成所有文章的爬取。然后详细讲解item以及item loader方式完成具体字段的提取后使用scrapy提供的pipeline分别将数据保存到json文件以及mysql数据库中.首先爬取一个网站前,我们需要分析网络的...原创 2019-11-17 14:54:04 · 6143 阅读 · 3 评论 -
Spark Sreaming实战(一)-教程概述
1 实战目标至今专栏的访问量至今从搜索引擎引流过来的专栏的访问量2 实战流程3 可视化显示使用Spring Boot整合Echarts阿里云DataV数据可视化框架4 教程概要初识实时流处理日志收集框架Flume消息队列Kafka实战环境搭建Spark Streaming入门Spark Streaming进阶Spark Streaming集成KafkaSpark Streaming集成Flume5 计划整合Flume、Kafka、 Spark Stream原创 2019-05-16 15:18:27 · 1689 阅读 · 1 评论 -
分布式日志收集框架Flume下载安装与使用
目录◆ 业务现状分析◆ Flume环境部署◆ Flume概述◆ Flume实战◆ Flume架构及核心组件原创 2019-06-13 01:03:22 · 2317 阅读 · 0 评论 -
大数据入门(五)-分布式计算框架MapReduce
1 概述源自于Google的MapReduce论文,发表于2004年12月。Hadoop MapReduce是Google MapReduce的克隆版优点海量数量离线处理易开发易运行缺点实时流式计算2 MapReduce编程模型wordcount词频统计MapReduce执行流程将作业拆分成Map阶段和Reduce阶段Map阶段: Map TasksReduce阶段、: Reduce TasksMapReduce编程模型执行步骤准备map处理的输入数据Mapper处原创 2021-11-19 17:08:09 · 681 阅读 · 0 评论