
大数据机器学习实践探索
文章平均质量分 88
本系列文章主要针对大数据处理这各类典型场景,基于python语言使用Oracle、aws、Elastic search 、Spark 相关组件进行一些基本的数据导入导出实战,如:
oracle使用数据泵impdp进行导入操作。aws使用awscli进行上传下载操作。
shiter
优快云博客专家,人工智能与大数据领域优秀创作者,累计近500W人次访问。 熟悉自然语言处理(NLP)、大数据(Spark 、Elasticsearch)、数据分析(Scala,Python),计算机视觉(OpenCV、立体匹配)等领域的研发工作。世界500强,高级算法工程师, 曾参与并负责国家级大数据项目,负责大健康平台相关开发与管理工作,负责金融行业AI与大数据平台产品设计、开发与落地。编程不仅仅是技术,还是艺术!talk is cheap,show me the code!
展开
-
《大数据机器学习实践探索》 ---- 总目录
为了采集、存储和分析大数据,互联网公司尝试研发大数据技术,在众多技术方案中,开源系统 Hadoop、 Spark、Elasticsearch等 成为应用最广泛的大数据技术,由于它们的用户量巨大,已经初步成为大数据技术规范。本专栏《大数据处理实践探索》 通过记录**基于Python 的大数据处理实践探索案例**,力图将大数据与机器学习相结合 产生新的实践落地思路。 网络上的大数据相关博文多是基于java 或者Scala ,本专栏的目的在于基于python 将大数据,数据开发,与数据分析相结合。并在实践内原创 2021-02-18 22:38:21 · 1252 阅读 · 0 评论 -
使用PySpark 结合Apache SystemDS 进行信号处理分析 (离散傅立叶变换)的简单例子
我们将使用ApacheSystemML来实现离散傅立叶变换。通过这种方式,所有计算都继续在ApacheSpark集群上进行,以获得高级可扩展性和性能。,用线性代数编程语言实现离散傅立叶变换很简单。原创 2023-11-23 00:14:58 · 1025 阅读 · 0 评论 -
使用 pyspark 进行 Clustering 的简单例子 -- KMeans
K-means算法适合于简单的聚类问题,但可能不适用于复杂的聚类问题。此外,在使用K-means算法之前,需要对数据进行预处理和缩放,以避免偏差。K-means是一种聚类算法,它将数据点分为不同的簇或组。原理简介:K-Means算法通过迭代寻找数据集中的k个簇,每个簇内的数据点尽可能相似(即,簇内距离最小),不同簇之间的数据点尽可能不同(即,簇间距离最大)。算法首先随机选择k个数据点作为初始的聚类中心(也称为质心),然后对数据集中的每个数据点,根据其与聚类中心的距离将其分配到最近的簇中。原创 2023-11-01 00:05:26 · 1377 阅读 · 0 评论 -
使用 pyspark 进行 Classification 的简单例子 -- RandomForestClassifier
【代码】使用 pyspark 进行 Classification 的简单例子。原创 2023-10-21 03:57:50 · 820 阅读 · 1 评论 -
使用 拓扑排序进行 Directed acyclic graph 【DAG】有向无环图 任务关系拆解,JAVA 实现任务编排
在图论中,拓扑排序(Topological Sorting)是一个有向无环图(DAG, Directed Acyclic Graph)的所有顶点的线性序列。原创 2022-07-09 00:35:56 · 398 阅读 · 0 评论 -
通过python扩展spark mllib 算法包(e.g.基于spark使用孤立森林进行异常检测)
如何通过python 脚本的方式扩展spark 的 处理能力呢?原创 2022-07-08 00:50:26 · 398 阅读 · 0 评论 -
python开发简介:【jupyter notebook】实战配置
由于anaconda自带了jupyter notebook,所以只需要一些简单的配置我们既可以进行实战开发,主要包括使用密码登录,外部访问,及root 角色启动等。原创 2022-07-06 23:40:17 · 550 阅读 · 0 评论 -
python开发简介:python 集成开发环境 IDE
进入实战环节,需要首先准备python开发环境的搭建,本书挑选工程中经常用到的IDE原创 2022-07-06 23:37:58 · 1367 阅读 · 0 评论 -
python开发简介:【Conda,Pip】虚环境搭建、配置与工程基础实践
有了集成开发环境,数据科学工具箱,我们还要准备搭建python 的虚拟环境。这是由于开源软件目前更新换代非常快,不同开发包之间相互依赖和更新可能引起的冲突及连锁反应。原创 2022-07-06 23:37:14 · 1221 阅读 · 0 评论 -
python开发简介:编码规范与工程基础实践
工欲善其事,必先利其器,熟练掌握python开发环境,虚拟环境,anaconda 等数据科学软件的使用技巧才能令自然语言处理工作游刃有余。原创 2021-12-17 23:43:00 · 1055 阅读 · 0 评论 -
单例模式与全局唯一id的思考----c++ ,c ,python 实现
前段时间去考了系统架构师,排错题基本全是设计模式的内容。设计模式真的这么重要么?答案是肯定的,没有设计模式就没有现在复杂的软件系统。于是,我想要慢慢的花两个月时间,重拾语言关,再者c++的设计模式网上实现比较少,我就来帮助大家搜集一下,当然实现方式还是我喜欢的c,c++,python三种语言分别实现。Christopher Alexander 说过:“每一个模式描述了一个在我们周围不断重复发生的问题...原创 2017-12-01 00:41:18 · 2586 阅读 · 0 评论 -
pyspark 原理、源码解析与优劣势分析(2) ---- Executor 端进程间通信和序列化
文章大纲参考文献、Executor 端进程间通信和序列化对于 Spark 内置的算子,在 Python 中调用 RDD、DataFrame 的接口后,从上文可以看出会通过 JVM 去调用到 Scala 的接口,最后执行和直接使用 Scala 并无区别。而对于需要使用 UDF 的情形,在 Executor 端就需要启动一个 Python worker 子进程,然后执行 UDF 的逻辑。那么 Spark 是怎样判断需要启动子进程的呢?在 Spark 编译用户的 DAG 的时候,Catalyst Opti原创 2021-05-24 19:23:07 · 589 阅读 · 3 评论 -
使用 python web 框架 进行高并发模型上线部署 的架构 思路探索
文章大纲web 框架性能测试 基准sanicyolopostman post 图片sanic 服务处理postman 压测新增test解析压测结果json参考文献web 框架性能测试 基准TechEmpower 是许多执行基本任务(如JSON序列化、数据库访问和服务器端模板组合)的web应用程序框架的性能比较。每个框架都在现实的生产配置中运行。在云实例和物理硬件上捕获结果。测试实现主要由社区贡献,所有源代码都可以在 github 上查看:https://github.com/TechEmpower原创 2022-05-27 17:27:07 · 628 阅读 · 0 评论 -
Docker 端口 问题排查思路
文章大纲从网络方向查找问题⼀、查看firewall-cmd --state⼆、ip转发没有打开从容器方向查找问题端口映射的问题其他需要注意的问题参考文献从网络方向查找问题docker容器内提供服务并监听8888端⼝,要使外部能够访问,需要做端⼝映射。docker run -it --rm -p 8888:8888 server:v1此时出现问题,在虚机A上部署后,在A内能够访问8888端⼝服务,但是在B却不能访问。这应该是由于请求被拦截。⼀、查看firewall-cmd --state如果原创 2022-05-24 14:46:23 · 697 阅读 · 0 评论 -
时间序列预测初探:Kats,SARIMA,Prophet,deepAR 等
时间序列的应用其实也挺广,我们这个文章来略探一二原创 2022-05-19 18:25:05 · 684 阅读 · 0 评论 -
《自然语言处理实战入门》第二章:NLP 前置技术(深度学习) ---- Keras
Keras是一个意在降低机器学习编程入门门槛的项目,其在业界拥有众多的拥护者和使用者。经过Keras社区的多年发展,Keras集成了很多符合工业和研究需求的高阶API,使用这些API只需要几行代码就可以构建和运行一个非常复杂的神经网络。原创 2020-12-16 11:21:38 · 766 阅读 · 0 评论 -
pyspark 原理、源码解析与优劣势分析(1) ---- 架构与java接口
文章大纲01. PySpark 的多进程架构02. Python Driver 如何调用 Java 的接口pyspark 优势参考文献Spark 框架主要是由 Scala 语言实现,同时也包含少量 Java 代码。Spark 面向用户的编程接口,也是 Scala。然而,在数据科学领域,Python 一直占据比较重要的地位,仍然有大量的数据工程师在使用各类 Python 数据处理和科学计算的库,例如 numpy、Pandas、scikit-learn 等。同时,Python 语言的入门门槛也显著低于 S原创 2021-05-20 17:59:06 · 1077 阅读 · 6 评论 -
spark 随机森林 源码解析
文章大纲随机森林算法源代码参考文献随机森林算法树相关的基础知识:面试、笔试题集:集成学习,树模型,Random Forests,GBDT,XGBoost源代码spark 随机森林的训练步骤具体的训练步骤如下:1.将每个树模型的根节点取出,加入栈中2.将k个节点从栈中取出,组成一个训练集合group,k值由内存限制决定,确定特征采样3.从各分区上计算并汇合分布信息,并计算待切分节点的最优切分点4.根据切分点生成新的叶子节点,并更新nodeIdCache5.若新生成的叶子节点没原创 2022-05-07 18:05:46 · 923 阅读 · 0 评论 -
spark 分布式训练原理解析
文章大纲有哪几种分布式训练方式spark 分布式训练源码解读DEMO SPARK 训练xgboost参考文献基于spark的分布式机器学习框架都有哪些有哪几种分布式训练方式数据分布模型分布混合分布我们来回顾一下,spark 分布式计算的原理在分布式训练中,用于训练模型的工作负载会在多个微型处理器之间进行拆分和共享,这些处理器称为工作器节点,通过这些工作器节点并行工作以加速模型训练。 分布式训练可用于传统的 ML 模型,但更适用于计算和时间密集型任务,如用于训练深度神经网络。原创 2022-04-25 12:46:11 · 2116 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(81-100)
我们想要训练一个 ML 模型,样本数量有 100 万个,特征维度是 5000,面对如此大数据,如何有效地训练模型原创 2022-04-19 22:18:05 · 526 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(61-80)
51. 假如使用一个较复杂的回归模型来拟合样本数据,使用 Ridge 回归,调试正则化参数 λ,来降低模型复杂度。若 λ 较小时,关于偏差(bias)和方差(variance),下列说法正确的是?A. 若 λ 较小时,偏差减小,方差减小B. 若 λ 较小时,偏差减小,方差增大C. 若 λ 较小时,偏差增大,方差减小D. 若 λ 较小时,偏差增大,方差增大答案:B解析:见 题5。52. 下列关于 Ridge 回归,说法正确的是(多选)?A. 若 λ=0,则等价于一般的线性回归B. 若 λ=.翻译 2021-02-25 15:34:15 · 10500 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(41-60)
笔试、面试题:机器学习基础(41-60)原创 2022-04-19 21:29:08 · 321 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(21-40)
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(21-40)原创 2022-04-18 22:02:17 · 393 阅读 · 0 评论 -
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(1-20)
1. 下列说法正确的是?(多选)A. AdaGrad 使用的是一阶导数B. L-BFGS 使用的是二阶导数C. AdaGrad 使用的是二阶导数D. L-BFGS 使用的是一阶导数答案:AB解析:AdaGrad 是基于梯度下降算法的,AdaGrad算法能够在训练中自动的对学习速率 α 进行调整,对于出现频率较低参数采用较大的 α 更新;相反,对于出现频率较高的参数采用较小的 α 更新。Adagrad非常适合处理稀疏数据。很明显,AdaGrad 算法利用的是一阶导数。L-BFGS 是基于牛顿优翻译 2021-02-22 00:58:35 · 1660 阅读 · 0 评论 -
使用迁移学习进行金融小样本风控实践(基于tradaboost进行个贷违约迁移学习比赛)---- 代码
文章大纲数据简介时间外样本集的生成import warningsimport pandas as pd# warnings.filterwarnings('ignore')import numpy as npimport lightgbmfrom sklearn import metricspd.set_option('display.max_columns', None)pd.set_option('display.max_rows', None)数据简介训练数据:train原创 2022-03-28 18:14:51 · 2257 阅读 · 0 评论 -
使用迁移学习进行金融小样本风控实践 ---- 原理简介
迁移学习(Transfer Learning,TL)对于人类来说,就是掌握举一反三的学习能力。原创 2022-03-26 11:05:51 · 2882 阅读 · 0 评论 -
spark 数据处理 -- 数据采样【随机抽样、分层抽样、权重抽样】
文章大纲简介分层抽样随机抽样代码样例scala 版本 sampleBypython版本参考文献简介spark scala最新版文档:http://spark.apache.org/docs/latest/api/scala/org/apache/spark/sql/DataFrameStatFunctions.htmlspark scala老版本的文档:http://spark.apache.org/docs/2.4.7/api/scala/index.html#org.apache.sp原创 2021-09-18 15:46:53 · 3752 阅读 · 0 评论 -
大数据ETL实践探索(5)---- 大数据ETL利器之 pandas
文章大纲文件加载一些参数的解释索引的那些坑杂项jupyter notebook 显示所有行和列文件加载path = r'./data/ren_pd.csv'df_pifu = pd.read_csv(path,low_memory=False,dtype={'MBR_NO':np.str})一些参数的解释索引的那些坑杂项jupyter notebook 显示所有行和列pd.s...原创 2019-02-03 23:51:57 · 2642 阅读 · 2 评论 -
聚类算法 ---- 大数据聚类算法综述
文章大纲简介聚类算法的分类相似性度量方法大数据聚类算法聚类算法对比参考文献简介随着数据量的迅速增加如何对大规模数据进行有效的聚类成为挑战性的研究课题,面向大数据的聚类算法对传统金融行业的股票投资分析、 互联网金融行业中的客户细分等金融应用领域具有重要价值, 本文对已有的大数据聚类算法,以及普通聚类算法做一个简单介绍聚类分析是伴随着统计学、计算机学与人工智能等领域科学的发展而逐步发展起来的,为此,这些领域若有较大的研究进展,必然促进聚类分析算法的快速发展。比如机器学习领域的人工神经网络与支持向量机原创 2021-08-19 23:39:46 · 1748 阅读 · 0 评论 -
spark dataframe 和 scala Map互相转换
spark 和scala 之间的数据转换,真是非常令人头疼,但是使用场景又非常的多,拆箱装箱实在是浪费时间,这篇文章我们来看看spark dataframe 和 scala Map互相转换原创 2022-01-20 00:07:06 · 4221 阅读 · 0 评论 -
spark 【scala and pyspark 】如何统计 Dataframe 列中的空值比例
机器学习在进行数据预处理的时候,经常需要统计某一列的缺失值比例。这个功能,spark 有多种的实现方式,我们一起来看看。原创 2022-01-13 22:23:40 · 2475 阅读 · 0 评论 -
机器学习中数据集的划分
其实一说到机器学习的数据集划分,我们往往都知道,有训练集、测试集。验证集、调优集一般来说不太常用。这篇博客来逐一探讨一下。原创 2022-01-11 20:34:32 · 576 阅读 · 0 评论 -
spark 等频 等宽 分箱的一个小问题
当分箱数比较多的时候,多于数据数量,箱子编号是从1 开始编号的,这是为什么呢?原创 2022-01-05 23:42:30 · 1915 阅读 · 0 评论 -
pyspark 的重大进步:pyspark 3.2 版本核心细节解读
文章大纲简介: 3.2 版本的核心更新解读参考文献简介: 3.2 版本的核心更新解读上述核心更新的目的昭然若揭,简直要吧pandas 这么好用的东西直接和大数据统一起来,一个字:绝!参考文献pyspark 官方文档:https://spark.apache.org/docs/latest/api/python/index.html升级建议与方法 2.x to 3.0:MLlibhttps://spark.apache.org/docs/latest/ml-migration-gui原创 2021-12-09 23:51:40 · 2458 阅读 · 0 评论 -
在 spark 3.2 中使用 DataFrame : Quickstart: DataFrame
Quickstart: DataFrameThis is a short introduction and quickstart for the PySpark DataFrame API. PySpark DataFrames are lazily evaluated. They are implemented on top of RDDs. When Spark transforms data, it does not immediately compute the transformation bu翻译 2021-12-07 00:57:28 · 506 阅读 · 0 评论 -
在spark 3.2 中 使用 pandas API 操作Dataframe:Quickstart: Pandas API on Spark
本文翻译自spark 官方文档,spark 3.2 引入了数据科学大杀器pandas api ,大有一统江湖之势。我们来一同学习一下其基本的使用。翻译 2021-12-07 00:50:56 · 1151 阅读 · 2 评论 -
pandas dataframe 与 spark dataframe 互相转换(数据类型应该怎么转换呢?)
DataFrame 是大数据处理与分析中的重要概念,最早来源于pandas ,被spark 发扬光大,在他们直接如何转换呢?有什么技巧和坑呢,我们来一一探索。原创 2021-11-29 23:49:56 · 2436 阅读 · 0 评论 -
如何封装不同 的分箱 (Binning)算法为一个spark Estimator?
文章大纲简介 -- 什么是 spark EstimatorPipeLine:工作流。Transformer:转换器TransformerEstimator:评估器Estimator 成员函数封装步骤参考文献简介 – 什么是 spark Estimator先来看看以下几个核心概念:PipeLine:工作流。工作流将多个工作流阶段(转换器和估计器)连接在一起,形成机器学习的工作流,并获得结果输出。Transformer:转换器是一种可以将一个DataFrame转换为另一个DataFrame的算法。原创 2021-11-28 22:31:53 · 1710 阅读 · 0 评论 -
spark 集群处理后转单机pyspark 或 pands 数据处理 的方法
文章大纲spark 环境下载conda 环境python 执行 字符串代码参考文献spark 环境下载历史包列表:https://archive.apache.org/dist/spark/conda 环境# pyspark 2.X 版本的python 必须是3.7 或者3.6 ,高的会报错。conda create -n pyspark_247 python=3.7版本不对可能会碰见如下报错:File "/xxx/xxx/lib/python3.9/site-packages/pysp原创 2021-11-25 18:30:38 · 1337 阅读 · 0 评论 -
spark -- WOE简介与实现
文章大纲woe 简介参考文献woe 简介WOE全称是Weight of Evidence,即证据权重,也叫作自变量的一种编码WOE的公式定义如下:参考文献https://blog.youkuaiyun.com/weixin_41008393/article/details/92830843https://zhuanlan.zhihu.com/p/146476834https://blog.youkuaiyun.com/mydear_11000/article/details/82081133https://原创 2021-10-27 15:40:52 · 484 阅读 · 0 评论