
spark
ailx10
ailx10 网络安全
展开
-
Spark MLlib线性回归算法
首先也是最重要的,发放MLlib机器学习数据集,没有给数据的都是耍流氓~下载地址:github mllib 数据集 第一列是标签,也就y后面8列是x1、x2、x3...x8我们的目标是寻找 y =a1*x1 + a2*x2 + ... a8*x8 这样的一个线性方法这里面a1、a2、...a8是我们通过这一堆 【y和x1、x2、x3...x8 】训练得来的构建spark对象(这其实是一句废话)读...原创 2020-10-10 22:41:40 · 376 阅读 · 0 评论 -
MLlib向量、矩阵、BLAS简介
这里了解一下就行了,真的只需要了解,用的时候自然就会了。买书的时候一定要注意了,一定要选大牛、大牛、大牛的书,那种杂七杂八的书,看的真的难受。既然选择了,那么就要坚持到底,即使这个选择并不是最佳的选择,但是有始有终,也是我一贯的行事风格。我现在只想快快结束这本书,赶紧去刷下一本书~一、MLlib向量介绍MLlib自己实现了Vector类,封装了Breeze向量方法,在MLlib函数里的参数传递都是...原创 2020-10-11 15:41:46 · 504 阅读 · 0 评论 -
MLlib Breeze和BLAS简介
Scala NLP是一套机器学习和数值计算的库,它主要是关于科学计算SC、机器学习ML和自然语言处理NLP的,它包括三个库:Breeze、Epic和Puck。Breeze是机器学习和数值计算库Epic是一种高性能统计分析器和结构化预测库Puck是一个快速GPU加速解析器一、Breeze创建函数全0矩阵:DenseMatrix.zero[Double](n,m)全0向量:DenseVector.ze...原创 2020-10-11 15:41:57 · 224 阅读 · 0 评论 -
MLlib数据格式
巧妇无为无米之炊,只有先有数据,然后才有数据分析,这是我最大的败笔,我之前讲的课,没有告诉听众,如何获取数据。这也是我自己遇到的困扰,我学习一门新技术的时候,如果没有数据,光抽象的讲解,我也会感觉不亲切,也会感觉抽象。我现在正在学习的《Spark MLlib机器学习》,这本书就没有给出数据集的下载地址,说实话,我觉得一般般,只想赶快结束。数据处理生成样本一、数据处理MLUtils用于辅助加载、保存...原创 2020-10-11 15:42:10 · 143 阅读 · 0 评论 -
MLlib Statistics统计操作
MLlib Statistics是基础统计模块,是对RDD格式数据进行统计,包括:汇总统计、相关系数、分层抽样、假设检验、随机数据生成等。列统计汇总相关系数(PS:我写过一篇专利,用的核心算法就是皮尔逊相关系数,知识不是没有用,而是需要用的时候 你能想到它)假设检验一、列统计汇总Statistics的colStats函数是列统计方法,该方法可以计算每列最大值、最小值、平均值、方差值、L1范数、L2...原创 2020-10-11 15:42:21 · 241 阅读 · 0 评论 -
Spark RDD操作
事件的起因是我们团队AI开发负责人离职了,作为设计负责人不得不顶上,所以我又开启了Spark AI学习副本,再一次走出舒适区。说实话这是一个挑战,因为我要掌握Spark SQL、Spark MLLib、Spark Streaming、Spark GraphX等一整套Spark大数据安全生态开发。兵来将挡,水来土掩,部门购买了一本书,叫Spark机器学习,来吧~RDD弹性分布式数据集,是一个容错的、...原创 2020-10-11 15:42:31 · 619 阅读 · 0 评论 -
Spark MLlib逻辑回归算法
买书先看作者是不是大牛,学习先看有没有给数据的下载地址。按照惯例,先给出数据集的下载地址:github机器学习数据下载 ~逻辑回归的本质也是线性回归,只是多加了一层sigmoid函数映射。也就是先把特征线性求和,然后使用sigmoid函数进行计算,sigmoid函数可以将连续值映射到0到1之间。线性回归的本质是y=f(x)=wx逻辑回归的本质是y=g(f(x))=g(wx)构建spark对象(这...原创 2020-10-11 16:25:09 · 154 阅读 · 0 评论 -
Spark MLlib LDA主题模型算法
一、 LDA主题模型算法简介说实话,看的我一脸懵逼,这都是啥玩意?直到我找到了一篇博客[1],才渐渐的自我解惑了~坚强的孩子依然前行在路上张开翅膀飞向自由让雨水埋葬他的迷惘...要理解LDA涉及到三个点:主题、词、文档我们可以认为文档是从多个主题选择多个词组成的文档到主题,服从多项式分布(文档包含M个主题)主题到词,服从多项式分布(主题包含N个词)LDA是无监督算法,采用词袋模型表达文档...原创 2020-10-15 22:08:08 · 205 阅读 · 0 评论 -
Spark MLlib ALS 最小二乘法
一、ALS交替最小二乘法简介ALS是交替最小二乘法,是一个使用交替最小二乘法求解的协同推荐算法通过观察到所有用户,对产品的打分,来推断每个用户的喜好,然后向用户推荐合适的产品这项技术的核心算法,是将一个超级大的带有未知数的矩阵,分解成2个小矩阵从而通过2个小矩阵的乘积,来预测大矩阵的未知数这里我们举一个通俗易懂的例子:小白:给黑客技术入门5分,给社会工程学入门4分小黄:给网络安全入门4分,给社会工...原创 2020-10-17 11:14:42 · 235 阅读 · 0 评论 -
Spark MLlib 大数据机器学习入门
历时一个星期的煎熬,终于把《Spark MLlib机器学习,算法、源码及实战详解》这本书上的例子给敲完了。之所以快刀斩乱麻,是因为这本书讲的确实很菜,如同刮痧。对于确实需要买书学习MLlib的童鞋,我推荐学习这一本《Spark MLlib机器学习实践》~由于API平台、AI总架构师双双离职了,受任于败军之际,奉命于危难之间,2020年Q4季度我的学习战略是这样的:Spark 入门Spark MLl...原创 2020-10-17 22:02:36 · 246 阅读 · 0 评论 -
Spark RDD 操作入门
从今天开始正式开始学习Spark Streaming 大数据流处理,希望10月能对我好一点,先亮一手正在读的书,主要是想搞懂,这个流计算框架应该如何落地,应用到我们的威胁检测项目上,对流数据异常检测感兴趣的小伙伴,也可以一起学习妖~Spark是一个函数式的大数据处理框架,可以让你专注于数据分析,其中RDD是不可变的数据集合,可以进行转换去实现程序逻辑,通常转换次数大于行动次数,但是转换时懒惰的,仅...原创 2020-10-18 22:29:34 · 118 阅读 · 0 评论 -
Spark Streaming的DStream简介
相比较批处理和流处理,批处理应用程序都拥有一个清晰的生命周期,它们一旦处理了输入文件就完成了执行。然而,流处理的执行却没有开始和停止的标记。所以,我们看到最大的不同在于,Spark Streaming 需要采用start来开始任务,采用awaitTermination来等待任务完成~举一个例子来说,批处理翻译完一本书,就结束流,如果想翻译另一本书,需要重新启动一个批处理任务。但是流处理翻译完了一本...原创 2020-10-22 22:00:28 · 160 阅读 · 0 评论 -
Spark Streaming 映射操作
继续学习Spark Streaming,现在的感觉是Spark Streaming是把流中的数据,在一个时间片中一行一行的处理,非常适合融合Kafka这样的消息队列中~数据集:reddit评论数据集下载 修改时间戳:NewFileTime下载 在这个实验里,我们需要下载reddit数据集,这个数据集是免费的公开的,大概有几百个G,我这里只下载了20M左右的数据,Just for Fun ~redd...原创 2020-10-24 20:47:37 · 183 阅读 · 0 评论 -
Spark Streaming 聚合操作
接着上一篇:ailx10:Spark Streaming 映射操作,接下来我们看看聚合操作。数据集:reddit评论数据集下载修改时间戳:NewFileTime下载首先看count:计算DStream的RDD中的元素个数,也就是有多少行 val recCount = comments.count() recCount.print()结果如下:有10170行再看看countByVal...原创 2020-10-24 21:18:10 · 286 阅读 · 0 评论 -
第一个 Spark Steaming 程序
我的第三个发明专利也通过了内部专家的审核,我真是个创新满满的小天才亚,虽然说自己也赚到了一点小钱钱,但是和伟大的创作事业相比,那都是不值一提的小插曲。今天再次起航Spark Steaming的学习~我们来看一个简单的Spark Streaming书本翻译的例子:每一个Spark应用程序都会用到一个SparkConf类型的配置对象与Spark集群保持连接主要靠SparkContext对象从一本叫ha...原创 2020-10-25 15:22:04 · 145 阅读 · 0 评论 -
Spark Streaming 键值操作
部门团建去游山玩水了,而我在家看书,硬啃Spark Streaming,你要知道眼前的快乐是短暂的,提升自己的能力才是正道。就像打游戏,有的人能赚钱,但有的人只是打发时间~数据集:reddit评论数据集下载修改时间戳:NewFileTime下载groupByKey:把DStream中每个键的值分组,计算每个用户的发布评论数量,最后按照评论数量对作者排序~ val topAuthors = c...原创 2020-10-25 16:41:04 · 71 阅读 · 0 评论 -
Spark Streaming 共享单车数据集
地球资源有限,但是人类需求无限,城市规划专家意识到这一点,于是有了“智慧城市”这个新词汇,为了完成这个KPI考核,就需要对城市环境的各个方面进行测量,以实现最佳的资源利用、共享、规划、监测。年轻的测绘专业大学生,会走在大马路上,使用交通信号灯、闭路电视、环路电感器、车载系统等来预测道路的拥堵。年轻的电气工程专业大学生,会穿梭在电网大楼里,采用智能电表的数据,使电力供应和电力需求紧密结合。让一切更加...原创 2020-10-26 22:39:57 · 245 阅读 · 0 评论 -
Spark Streaming 消费TCP数据
细数一下最近的活,真的是忙的喘不过气来,关键是每件事都要自己做,而且还是尽快做,因为已经到10月底了,各个版本都要发布,新项目要准备评审,累的一比。安全事件聚合模式、提炼精准可信事件群组异常检测、历史行为基线方案设计安全事件案例库新增11个AI资产威胁打分预研今天问了一下我们的Spark Streaming版本的UEBA新架构已经启动了,说实话这个方案设计是我做的,已经通过了专家的专利评审,只不过...原创 2020-10-28 23:05:47 · 167 阅读 · 0 评论 -
MQTT消息队列遥测传输
说实话这个折腾了我好久好久,我才知道,原来学习不是最痛苦的,学习却学不会才是最痛苦的事。生产者将消息发布到一个主题,消费者从该协议里读取数据,MQTT是为IoT物联网通信设计的协议,MQTT使物联网低延迟、更省电,支持3种消息发布服务质量~最多一次最少一次只有一次比较出名的MQTT有ActiveMQ(apollo)、IBM Websphere MQ、RabbitMQ、Mosquitto,我实验中用...原创 2020-11-04 00:35:40 · 196 阅读 · 0 评论 -
Spark Streaming 消费Kafka实时数据
2019年3月份刚刚做的第一个项目,就是基于Kafka的数据流异常检测,当时用C语言写的,编译后的可执行程序大约20M,跑的很6~Kafka是日志聚合器和发布订阅系统,Kafka表面看起来像是一个消息传递系统,后台是一个日志聚合器。它使用分区预写提交日志来维护所有数据,数据在一个主题下,以语义的方式分组,这只是一个队列的逻辑标签,它是生产者编写的队列,也是消费者读取的队列~一眨眼快2年过去了,已经...原创 2020-11-08 16:38:57 · 108 阅读 · 0 评论 -
Spark UI 监控任务健康状态入门
突然发现,学习一门新的技术呀,一定要选择一本好的书,一定要找那种提供代码和数据的,真的会事半功倍,否则折腾不死你哦,今天就把《Spark 实时大数据分析》这本书埋葬了,算是我Spark Streaming 入门的第一本书吧,我非常不喜欢作者的写作风格,数据集非常多,好不容易下载了,下一章节又换了新的数据集,你说气不气,对于初学者非常不友好...我的读书报告如下,明天准备看新书啦,期待~ailx10...原创 2020-11-08 22:22:01 · 152 阅读 · 0 评论