- 博客(13)
- 收藏
- 关注
原创 页面日志的服务器端的清洗和预处理
对于实时要求要宽松的应用场景下,一般的都是进行离线处理,而日志需要清洗和预处理的原因: 识别流量攻击,网络爬虫和流量作弊(虚假流量)。页面日志是互联网分析和大数据应用的基础源数据,在实际应用中,往往存在占一定比例的虚假或者恶意流量日志,导致分析指标的较大偏差。为此,需要对所采集的日志进行合法性校验,依托算法识别非正常的流量并归纳出对应的过滤规则集加以过滤。 数据缺项补正。为了遍历后续的日志应用和保...
2018-05-08 17:47:39
487
原创 java内存划分
程序计数器(线程私有): 特点:线程创建时创建,执行本地方法时其值为undefined。虚拟机栈(线程私有): 特点:(栈内存)为虚拟机执行java方法服务:方法调用时创建栈帧-->局部变量表-->局部变量,对象引用 如果线程请求的栈深度超出了虚拟机锁允许的深度,就会出现StackOverFlowError。-Xss规定...
2018-04-25 17:39:57
315
转载 webx的简单讲解
从官方的说明来看,WebX的定位并不仅仅是Web框架,而是强调了框架的灵活性和扩展性。webx = spring+组件+velocity创建web应用后。首先看一下整个代码的目录的结构。包含java和webapp。java包下代码:后台逻辑的实现。 webapp是网站的根目录。分别对应module和templates。Module:承担控制器的职责 Controller。负责接收客户端的数据的输...
2018-04-25 17:11:14
538
原创 spark调优
1.代码调优: 避免创建重复的RDD复用同一个RDD对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略呢?答: cache--MEMORY_ONLY; persist:MEMORY_ONLY,MEMORY_ONLY_SER,MEMORY_AND_DISK_SERcheckpoint:如果一个RDD的计算时间比较长或者计算起来比较复杂。一般将这个RDD的计算结果保存到HDFS上,这样数据...
2018-04-15 20:34:44
240
原创 spark的cache和checkpoint的区别
要知道区别,就要首先知道实现的原理和使用的场景 cache就是讲共用的或者重复使用的RDD按照持久化的级别进行缓存。 checkpoint 就是将业务非常长的逻辑计算的中间结果缓存到HDFS上,他的实现原理是: 首先找打stage最后的finalRDD,然后按照RDD的依赖关系回溯,找到使用checkpoint的RDD。 然后...
2018-04-15 10:44:20
1723
原创 scala的简单语法
数据类型 : byte 8bit的有符号数字,范围在 -128 --127 short 16bit 有符号数字,范围在-32768 --32767 int 32 bit 有符号数字 long 64bit 有符号数字 float 32bit单精度浮点数 double 64 bit 双精度浮点数 char 16bit 字符 String 字符串 ...
2018-04-14 19:08:15
197
原创 逻辑回归算法的优化
一:有无截距: 如上图。可以知道,有截距的线条数比无截距的线条数(过原点的线条)要多。所以在选择逻辑回归的时候,通常要设置截距。增加正确的概率。 代码: val lr = new LogisticRegressionWithSGD() ----创建逻辑回归对象 lr.setIntercept(true) -...
2018-04-14 18:00:26
3973
原创 sparkstreaming的执行流程
sparkstreaming是准实时处理框架(微批处理:可以设置时间间隔)通过上图总结: receiver task 是 7*24h一直在执行,一直接收数据,将接受到的数据保存到batch(该一批次的时间间隔bacth interval是自己写的,本例中是5s即batch interval=5s)中,那么就把接收到的数据每隔5s切割刀一个batch中,因为batch是没有分布式计算特性的,但...
2018-04-13 14:45:18
564
原创 模型评估标准-AUC
图中表格里面的数据的看法是:P和N分别加上单元格内的T(true)或者F(false)举例: 假设我们有60个正样本,40个负样本,我们要找出所有的正样本。系统预测出50个,其中只有40个是真正的正样本,计算上述各指标: TP:将正类预测为正类数 40 ...
2018-04-08 11:44:32
567
原创 Kmeans聚类算法
Kmeans聚类算法:K均值聚类 聚类:给事物打标签,寻找同一个组内的个体之间的一些潜在的相似模式。力图找到数据的自然分组Kmeans。 聚类是一种无监督的机器学习任务,他可以自动将数据划分成类cluster。因此聚类分组不需要提前被告知所划分的组应该是什么样的。因为我们甚至可能都不知道我们寻找什么。所以聚类是用于只是发现而不是预测。列入下图。 ...
2018-04-04 11:02:35
836
原创 逻辑回归简单的代码(scala实现)
package com.sxt.scala.lrimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.linalg.Vectorsimport org...
2018-04-04 10:34:14
1175
原创 逻辑回归算法的理解
逻辑回归算法又称logistic回归,是一种广义的线性回归模型,逻辑回归是一种用于分类的算法。 最常见的问题如医生看病时。需要望,闻,问,切之后判断病人是否生病或者生了什么病。其中望,闻,问,切就是输入即特征数据,而是否生病就相当于获取因变量y,也就是分类的结果。 逻辑回归的公式: z=w0+w1x1+w2x2+w3x3+w...
2018-04-04 10:27:18
551
原创 spark的原理
spark是一个微批处理的计算框架。基于内存的计算框架注意:不是实时计算框架。因为spark处理的数据是一定时间内的数据。你可以把这个时间设置的很小很小。例如1s。举个例子:大家都做过电梯或者扶梯。扶梯就是实时的--strom。电梯就是微实时的,它是一定的时间后,成批次的传送人--sparkspark的底层是RDD(分布式数据集)。RDD有五个主要的特性:一:RDD是有一系列的partition组...
2018-04-03 17:15:37
181
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人