- 博客(10)
- 收藏
- 关注

原创 SVM 垃圾邮件分类
SVM 垃圾邮件分类前言-之前在学习SVM理论的时候,一边照着别人的思路做了这个实战,SVM只是调用sklean的,主要学习的还是对数据的处理,如何构建一个好的特征向量去学习得到一个好的模型。在这里做下笔记。实战思路:主要的目标是为了提取特征向量,然后进行训练验证。这里采用的思路是:邮件中某个词在多个邮件(设为10)中出现就提取其作为提取特征,即一个词在10封邮件中出现,就选择这个...
2019-03-09 10:50:35
5576
4
原创 RocketMQ 学习笔记
RocketMQ 入门一. 简介RocketMQ是一个分布式消息和流数据平台,具有低延迟、高性能、高可靠性、万亿级容量和灵活的可扩展性。RocketMQ是2012年阿里巴巴开源的第三代分布式消息中间件,2016年11月21日,阿里巴巴向Apache软件基金会捐赠了RocketMQ;第二年2月20日,Apache软件基金会宣布Apache RocketMQ成为顶级项目。(维基百科)二. 架构原...
2020-03-03 11:19:20
276
原创 Kafka 学习笔记
一. Kafka 入门1. 介绍Kafka是由Apache开发的一个开源流处理平台,由Scala和Java编写。目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”, 这使它作为企业级基础设施来处理流式数据非常有价值。(维基百科)2. kafka特性高吞吐量,低延迟: 每个topic可以拥有多个partiti...
2020-03-03 11:17:17
200
原创 spark Streaming 学习笔记
spark Streaming 介绍spark Streaming 是 spark 核心 API 的扩展之一。用于实现实时数据流的可扩展,高吞吐量,容错流处理。数据的输入和数据的输出具体如下图:sparkStreaming 可进行复杂的运算,如 map, reduce, join, window 等。处理后的数据可流向文件系统(HDFS),数据库(Databases),实时仪器表(Bash...
2019-03-28 20:54:10
262
原创 spark SQL 笔记
spark SQL 笔记(2.4.0版本)spark 的创建spark 所有的功能切入点都在 sparkSession 。所有开始我们应该导入类并创建sparkSession 类。import org.apache.spark.sql.SparkSessionval spark = SparkSession .builder() .appName("Spark SQL basi...
2019-03-24 13:29:30
332
原创 spark 学习笔记
spark SQL 学习笔记spark介绍Spark是是一种快速通用的集群计算系统,它的主要特点是能够在内存中进行计算。它包含了 spark 核心组件 spark-core,用于 SQL 和结构化处理数据的 sparkSQL,流式计算 spark Stream,机器学习库 MLlib,和图形计算 GraphX。并且 spark 还提供了丰富的API,如 Java,Scala, Python,...
2019-03-23 12:36:50
403
原创 协同过滤推荐算法理解
基于用户的协同过滤先给个例子,有用户 A 喜欢物品 X,Y, Z,用户 B 喜欢物品 X, Y,那么我们可以说用户 A 和 B 是属于同一类的,那么我们就可以把 A 喜欢的 Z 推荐给 B。 这就是基于用户的协同过滤算法的基础。那么什么是协同过滤,这里是维基百科的介绍:简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人透过合作的机制给予信息相当程度的回应(如评分...
2019-03-17 21:06:04
331
原创 决策树 简单理解入门
决策树介绍决策树是基于树状结构来进行决策的。决策过程提出的每个判定问题都是对某个属性的测试,测试的结果,或导出决策结果,或导出下一个判定问题,其考虑范围是上一次决策结果的限定范围内。例如:一个瓜是否为好瓜,可以先判定瓜的色泽=?,然后根据判定结果,导出结果或者下一个判定问题。一棵决策树包含一个根节点,若干个内部节点和若干个叶节点。叶节点对应于决策结果,而其他每个节点则对应于一个属性测试...
2019-03-15 21:34:25
641
原创 SVM 支持向量机简单入门理解
支持向量机SVM间隔与支持向量对于分类学习的想法就是基于训练集在样本空间DDD中找到一个划分超平面,将不同类别得样本分开。但超平面有很多,如何找个一个合适的超平面呢?划分超平面应该对训练样本局部扰动的容忍性最好, 在样本空间中,划分超平面可由如下线性方程描述:wTx+b=0w^Tx+b=0wTx+b=0其中w和b决定了划分超平面。样本空间中任意点到超平面的距离有(点到直线的距离公式):r...
2019-03-07 14:53:07
376
原创 线性模型
线性模型1.给定由d个属性描述的x ={x1x_1x1;x2x_2x2;…;xdx_dxd},其中xix_ixi是x在第i个属性上的取值,线性模型试图通过学得一个通过属性得线性 组合来进行预测的函数。线性模型是的基本形式是 f(x)=w1x1+w2x2+..+wixi+bf(x)=w_1x_1+w_2x_2+..+w_ix_i+bf(x)=w1x1+w2x2+..+wixi...
2019-02-19 14:21:18
363
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人