
大数据
文章平均质量分 73
大数据冲冲冲
山顶夕景
互联网大厂AI算法工程师。实践出真知。
展开
-
【Pyspark教程】SQL、MLlib、Core等模块基础使用
pyspark.SparkContext: Spark 库的主要入口点,它表示与Spark集群的一个连接,其他重要的对象都要依赖它.SparkContext存在于Driver中,是Spark功能的主要入口。代表着与Spark集群的连接,可以在集群上创建RDD,accumulators和广播变量- pyspark.RDD: 是Spark的主要数据抽象概念,是Spark库中定义的一个抽象类。- pyspark.streaming.StreamingContext 一个定义在Spark Streaming库中原创 2022-05-21 16:45:11 · 6072 阅读 · 4 评论 -
【Spark】scala基础入门
scala基础教程(面向对象、函数式编程、静态类型等等特点),附带基础简单的栗子原创 2022-06-29 00:04:47 · 4478 阅读 · 1 评论 -
【推荐算法课程】CS246 大数据挖掘
文章目录一、课程介绍二、作者介绍三、具体章节四、小结一、课程介绍重点~课程对应教材(pdf可下载):http://www.mmds.org/CS246主题包括: 频繁项集和关联规则,高维数据中的近邻搜索,局部敏感哈希(LSH),降维,推荐系统,聚类,链接分析,大规模监督机器学习,数据流,挖掘结构化数据的Web, Web广告。大数据挖掘Mining Massive Data Sets,主讲人是斯坦福大牛Jure Leskovec,他是斯坦福大学计算机学院的副教授,也是图表示学习方法 node2vec原创 2022-04-13 22:14:23 · 1068 阅读 · 0 评论 -
大数据入门介绍和学习路线
文章目录一、大数据开发岗要求1.1 大数据方向分类(1)基础平台开发:(2)数据产品开发:(3)数据仓库:(4)数据分析:(5)算法:1.2 大数据工具之间的关系(1)怎么存下大数据(2)怎么处理数据(3)什么是Map,什么是Reduce?(4)更高层描述算法和数据处理(5)流计算(6)KV Store(7)调度系统Yarn1.3 大数据学习路线(1)基础部分(2)javase(3)zookeeper(4)hadoop(5)hive(6)hbase(7)redis(8)kafka(9)spark(10)el原创 2022-03-12 21:42:14 · 3309 阅读 · 1 评论 -
浅析数据中台
数据中台的出现弥补了数据开发和应用开发之间由于开发速度不匹配而出现的响应力不足等缺陷问题。数据中台是国内学者提出的概念,起始于阿里的“大中台、小前台”概念。阿里的中台是从管理的角度出发,以中台事业部集中数据搜索,技术及产品,数据共享等多个部门的功能。其他组织或企业建设数据中台不一定需要成立中台事业部,但是数据集中治理与提升数据价值转换效率的思路是一致的。原创 2023-06-28 13:38:12 · 609 阅读 · 0 评论 -
解决TypeError: in method ‘IndexFlat_add‘, argument 3 of type ‘float const *‘
在使用faiss时报错如题`TypeError: in method ‘IndexFlat_add’, argument 3 of type ‘float const*’`。```pythonbeat_emb = normalize(beat_emb, norm = "l2")hidden_size = 128gpu_index = faiss.IndexFlatIP(hidden_size)gpu_index.add(beat_emb)top_N = 50predicts = dict()原创 2023-03-26 01:13:02 · 848 阅读 · 0 评论 -
【大数据】Pyarrow简单使用
- Arrow是一个Python库,为创建,操作,格式化和转换日期,时间和时间戳提供了一种明智的,人性化的方法。 它实现和更新日期时间类型,填补功能上的空白,并提供支持许多常见创建场景的智能模块API。# 二、使用小栗子- 离线测试时,有时为了更快使用dataloader对测试集预测,而且df较大,可以使用上面介绍的`PyArrow`进行对df分块读入然后使用dataloader- `pa.Table.from_pandas(all_predcit)`可以将pd.df格式的`all_predict`转原创 2023-03-26 00:49:27 · 2853 阅读 · 0 评论 -
利用pandas_udf加速机器学习任务
在java分布式系统中执行python程序是挺耗性能的(如下图,数据在JVM和Python中进行传输,有额外的序列化和调用开销),apache arrow项目由此发起,以加速大数据分析项目运行速度。apache arrow是一种内存中的列式数据格式,用于spark中JVM和python进程之间的数据高效传输。,但在spark3.0后的版本中需要改为。udf自定义函数,可让我们在使用pyspark进行业务分析时高效自定义功能,一般分为两种:event level:是对一条事件or数据进行计算。原创 2023-02-04 16:10:06 · 1720 阅读 · 0 评论 -
解决报错spark.createDataFrame() Can not merge type
# 一、问题描述将pandas的df转为spark的df时,spark.createDataFrame()报错如下:```pythonTypeError: field id: Can not merge type and ```# 二、 解决方法是因为数据存在空值,需要将空值`pd.NA`替换为` `空字符串。原创 2023-01-28 20:14:52 · 1589 阅读 · 0 评论 -
解决Python in worker has different version 3.10 than that in driver 3.8, PySpark cannot run
上面是因为pyspark的python环境和driver(主节点)的python环境版本不一致导致。注意driver(主节点master)上用的是虚拟环境conda里面的默认python版本,而worker是使用系统python版本。为了python版本一致,设置pyspark的python环境(worker的python版本)和driver的python版本一致。会优先,如果没有设置,则直接使用的是。原创 2023-01-10 03:17:38 · 2692 阅读 · 0 评论 -
【Pyspark】用from_json将字典列拆分为多列
经过udf返回形式数据后返回字典列数据,或者本身初始数据就是有字典列的。即将字典列中拆分成id和name列。二、解决方案在pyspark中,可以使用函数将DataFrame中的字典列拆分为多列:[1] pyspark 根据字典添加多列[2] UDF函数的使用、UDF传入多个参数、UDF传出多个参数、传入特殊数据类型[3] 官方文档:pyspark.sql.functions.from_json[4] SSS —— Spark Structured Streaming 之单列拆分成多列原创 2022-12-08 02:09:19 · 1827 阅读 · 0 评论 -
【Pyspark基础】sql获取user最近3次使用的item
文章目录一、先用window函数尝试二、获得对应的collection_list三、用withColumn和split进行分隔Reference一、先用window函数尝试pyspark.sql和mysql一眼有window窗口函数:# 数据的分组聚合,找到每个用户最近的3次收藏beat(用window开窗函数)from pyspark.sql.window import Windowimport pyspark.sql.functions as Fwindow_out = Window.原创 2022-05-14 20:34:03 · 1103 阅读 · 0 评论 -
【Pyspark基础】行转列和列转行(超多列时)
这里的stack可以理解成将对应的原来的一个个字段进行“堆叠”,然后再一一送入到后面。列,目标是实现类似sql中经典任务的行转列和列转行,即一项项的。先从一个栗子开始,可能会疑惑的地方在。现在pyspark中有字段。...原创 2022-07-23 13:25:38 · 2009 阅读 · 0 评论 -
【Spark】spark-submit作业提交及参数设定
随着 application 的增加,需要不断安装新的包,而且不同 application 可能存在版本问题,这对于 client 模式来说或许还可以接受,但 cluster 模式肯定不行的,如果集群很大,装环境会很麻烦。在 client 模式下,Driver 就找在 Client 端,可以把 client 端的资源分发,而 cluster 模式下,Driver 可在集群任一节点,该节点是没有资源的。client:在客户端上启动driver,这样逻辑运算在client上执行,任务执行在cluster上。原创 2022-10-29 13:01:50 · 14056 阅读 · 3 评论 -
【Spark】广播变量和累加器
多进程编程中,不同进程可以通过创建共享内存,进行进程间通信。而在分布式中,Spark通过【广播变量】和【累加器】进行共享变量。(3)使用累加器时,为了保证准确性,只能使用一次动作操作;创建成广播变量(一个包装变量,这时候该广播变量就能在集群中的其他节点进行共享数值了),我们可通过。(1)上面首先创建了一个元素个数为100的RDD对象,后面在该RDD对象上执行一个。函数,累加器会再次执行,变为50+50=100,但是一开始的。,然后修改数值后再次广播,就能够被集群的其他节点获取数值。原创 2022-10-24 01:19:16 · 1584 阅读 · 0 评论 -
Neo4j图数据库和GDS图算法应用
图数据库Neo4j支持的图算法和GDS- 图搜索算法- 寻路算法- 中心性算法- 社区检测算法- 图嵌入- 链接预测- 连接特征提取原创 2022-09-10 19:20:10 · 3546 阅读 · 2 评论 -
【Pyspark】udf使用入门
【Pyspark】udf使用入门,udf(user define function)原创 2022-08-08 23:59:35 · 754 阅读 · 0 评论 -
解决报错: YarnScheduler: Initial job has not accepted any resources
解决报错: YarnScheduler: Initial job has not accepted any resources。原创 2022-08-02 19:36:23 · 1516 阅读 · 0 评论 -
解决报错TypeError:unsupported operand type(s) for +: ‘NoneType‘ and ‘str‘
用一个udf想让df(有country和id两个字段)生成新的一列。应该也是空的,所以就简单加多个判断的逻辑即可。字段内容没有数据(注意类型是。(内容是字符串,内容原创 2022-07-30 20:58:59 · 12023 阅读 · 0 评论 -
【大数据】(task3)Hadoop分布式文件系统HDFS
学习小结 HDFS原来是Apache Nutch搜索引擎的一部分,后来独立出来作为一个Apache子项目,并和MapReduce一起成为Hadoop的核心组成部分。本章介绍了分布式文件系统的概念,并从分布式文件系统出发,引入了HDFS。作为Hadoop和其他组件的数据存储层,HDFS提供了强大可靠的数据容错处理、自动恢复的机制以及多副本策略。 本章通过实验,讲解了在Linux系统中的HDFS文件系统基本命令,通过这些命令可以进一步熟悉HDFS分布式文件系统的使用。HDFS是Hadoop的基石之一原创 2022-07-27 01:08:25 · 1104 阅读 · 1 评论 -
解决报错:NoSuchMethodException: org.apache.spark.ml.classification.GBTClassificationModel
报错:二、解决方案对于pipeline model和model的save和load操作都是不一样的,并且对应的API不要用错,比如在load训练好的模型是用的,而不是使用:原创 2022-07-12 19:36:56 · 825 阅读 · 0 评论 -
基于Pyspark的TF-IDF英文关键词确定
文章目录一、TF-IDF回顾二、Pyspark注意事项三、具体代码四、结果分析一、TF-IDF回顾TF-IDF(Term Frequency/Inverse Document Frequency,词频-逆文档频率)算法,可以找出文档中的关键词,顾名思义,TF-IDF 分数由两部分组成:第一部分是TF词语频率(Term Frequency),第二部分是IDF逆文档频率(Inverse Document Frequency)。其中计算语料库中文档总数除以含有该词语的文档数量,然后再取对数就是逆文档频原创 2022-04-30 22:39:35 · 1069 阅读 · 0 评论 -
解决ValueError: Cannot run multiple SparkContexts at once; existing SparkContext
一、问题描述创建sparkcontext和SparkSession,连接spark集群时报错,如题ValueError: Cannot run multiple SparkContexts at once; existing SparkContext。from pyspark.sql import SparkSessionfrom pyspark.sql import functions as Ffrom pyspark.sql.functions import min, maxfrom pysp原创 2022-04-25 00:16:22 · 4631 阅读 · 0 评论 -
【Spark】(task1)PySpark基础数据处理
学习总结文章目录学习总结一、Spark介绍1.1 Scala和PySpark1.2 Spark原理1.3 一个具体栗子二、安装方式三、测试是否安装成功四、Spark程序的模块分类五、数据处理任务5.1 使用Python链接Spark环境5.2 创建dateframe数据5.3 用spark执行以下逻辑:找到数据行数、列数5.4 用spark筛选class为1的样本5.5 用spark筛选language >90 或 math> 90的样本任务汇总:一、Spark介绍hadoop生态圈:原创 2022-03-15 15:44:13 · 5088 阅读 · 0 评论 -
【Spark】(task2)PySpark数据统计和分组聚合
学习总结文章目录学习总结一、数据统计1.1 读取文件1.2 保存读取的信息1.3 分析每列的类型,取值个数1.4 分析每列是否包含缺失值二、分组聚合2.1 学习groupby分组聚合的使用2.2 学习agg分组聚合的使用2.3 transform的使用Reference一、数据统计1.1 读取文件步骤1:读取文件https://cdn.coggle.club/Pokemon.csvimport pandas as pdfrom pyspark.sql import SparkSession#原创 2022-03-16 15:04:38 · 8661 阅读 · 0 评论 -
【Spark】(task3)SparkSQL基础
文章目录零、回顾一、使用Spark SQL完成任务1里面的数据筛选二、使用Spark SQL完成任务2里面的统计(列可以不统计)三、使用Spark SQL完成任务3的分组统计零、回顾【Spark】(task1)PySpark基础数据处理使用Python链接Spark环境创建dateframe数据用spark执行以下逻辑:找到数据行数、列数用spark筛选class为1的样本用spark筛选language >90 或 math> 90的样本【Spark】(task2)Py原创 2022-03-19 09:07:17 · 1120 阅读 · 0 评论 -
【Spark】(task4)SparkML基础(数据编码)
学习总结文章目录学习总结零、导言一、构建ML Pipeline机器学习流程1.1 ML Pipeline构建流程1.2 ML Pipeline组件二、数据编码2.1 学习Spark ML中数据编码模块2.2 读取文件Pokemon.csv,理解数据字段含义2.3 将其中的类别属性使用onehotencoder2.4 对其中的数值属性字段使用 minmaxscaler2.5 对编码后的属性使用pca进行降维(维度可以自己选择)Reference零、导言【导言】park是一个快速和通用的大数据引擎,可以通原创 2022-04-01 20:57:55 · 6267 阅读 · 1 评论 -
【Spark】(task5)SparkML基础(分类 | 聚类模型)
文章目录三、分类模型3.1 继续任务5的步骤,假设Type 1为标签,将其进行labelencoder3.2 导入合适的标签评价指标,说出选择的原因?3.3 选择至少3种分类方法,完成训练。四、聚类模型4.1 继续任务5的步骤,假设Type 1为标签,将其进行labelencoder4.2 使用kmeans对宝可梦进行聚类,使用肘部法选择合适聚类个数。三、分类模型3.1 继续任务5的步骤,假设Type 1为标签,将其进行labelencoder# encoding=utf-8from pyspar原创 2022-04-21 00:07:32 · 2887 阅读 · 2 评论 -
【Spark】(task6)Spark RDD完成统计逻辑
文章目录一、Spark RDD二、使用RDD functions完成任务2的统计逻辑Reference一、Spark RDDRDD:resilient distributed dataset (RDD)每个spark程序都有一个driver program运行main函数,在cluster集群上执行各种并行操作。我们也可以将RDD持久化到内存,便于在并行操作中重用。RDD 是 Spark 最基本的数据抽象,它是只读的、分区记录的集合,支持并行操作,可以由外部数据集或其他 RDD 转换而来,它具有以下特原创 2022-04-22 00:39:34 · 2323 阅读 · 1 评论 -
【Spark】(task7)PySpark Streaming入门
文章目录一、Spark Streaming入门二、Streaming 和 Structured Streaming区别2.1 流计算(Streaming)和批计算(Batch)2.2 Spark Streaming 和 Spark Structured Streaming三、基于Spark Streaming统计文本数栗子四、代码实践Reference一、Spark Streaming入门spark streaming可以接收实时的输入数据流(如上图的kafka、HDFS、TCP socket的数据流原创 2022-04-23 22:43:01 · 3773 阅读 · 3 评论 -
【Spark】(task8)SparkML中的pipeline通道建立
如果样本较少,可以直接使用python对样本进行ML建模,但当需要大规模数据集时,可以使用spark进行分布式内存计算,虽然spark的原生语言是scala,但如果用python写可以用pyspark进行机器学习的pipeline链路建立。...原创 2022-06-10 00:48:30 · 1215 阅读 · 0 评论 -
【王喆-推荐系统】(task5)Embedding实践(特征工程篇)
学习总结(1)用Spark生成Item2vec和Graph Embedding。运用 Spark 实现了经典的 Embedding 方法 Item2vec 和 Deep Walk。(2)关于 Item2vec 的 Spark 实现,应该注意的是训练 Word2vec 模型的几个参数 VectorSize、WindowSize、NumIterations 等,知道它们各自的作用。它们分别是用来设置 Embedding 向量的维度,在序列数据上采样的滑动窗口大小,以及训练时的迭代次数。(3)而在 Dee原创 2021-10-26 16:16:29 · 1453 阅读 · 4 评论 -
大数据开发岗位的几个方向
大数据开发分了几个方向:1.底层的基础平台开发2.面向用户的数据产品开发3.数据仓库开发4.大数据分析5.算法,数据挖掘一、基础平台开发:Java 为主。主要做统一数据开发平台、大数据源码级别扩展优化、提供提升开发效率的工具、元数据管理、数据质量管理等。技能要求:Java,Zookeeper,Hadoop,Hive,Spark,Kafka等。二、数据产品开发:服务端 Java 为主,全部容器化管理服务。主要是数据报表平台、数据分析平台等。三、数据仓库:如果数据开发平台比较完善,一般以原创 2022-01-17 20:51:41 · 4635 阅读 · 0 评论 -
【分布式基础】CAP通俗解释
CAP 理论是分布式系统的一个基础理论,它描述了任何一个分布式系统最多只能满足以下三个特性中的两个:一致性(Consistency)可用性(Availability)分区容忍性(Partition tolerance)第一章:“记忆公司”面世一天晚上,正准备入睡时,你的妻子对你记住她生日并送她礼物表示感谢。这时,一个商业想法从你的脑海中闪现:人们总是弱于记忆生活中的事情,而我却拥有超群的记忆力,因此,为何不成立一间公司可以充分运用自己的记忆天赋来赚钱。说干就干,接着你在当地一间报社刊登了记忆公转载 2021-05-19 00:55:52 · 759 阅读 · 0 评论 -
【Airflow】工作流自动化和调度系统
文章目录一、Airflow的诞生二、基于CeleryExecutor方式的系统架构三、Airflow的组成成分四、安装五、基本命令Reference一、Airflow的诞生未使用airflow使用airflow需要自己添加调度代码、调试复杂、功能单一、缺乏整体调度能力框架调度,简单易用,更稳定,功能全面,可以整体调度缺乏图形化能力,给任务的新增、排查等操作带来很多困难。特别是当任务较多,结构复杂的时候内置树状图和流程图,清晰明了的展现任务拓扑结构需要自己添加任务实时监原创 2022-03-25 23:01:16 · 1489 阅读 · 0 评论