微凉下午茶-优快云博客

原创在docker中编译tor 源码

在docker中编译tor 源码前言一、docker中创建自定义镜像及容器1. 创建镜像的目录并拉取Ubuntu16.04镜像:2.书写Dockerfile，并build构建镜像二、编译tor源码1. 下载Tor源码2.编译Tor源码三、运行tor参考连接前言本文将在docker中创建一个镜像，在镜像的基础上启动容器，然后编译tor-0.4.4.5.tar.gz（目前最新版）源码一、docker中创建自定义镜像及容器我们所说的生成镜像其实是在ubuntu镜像的基础上构建自己的镜像，因此首先需要.

2020-11-12 19:52:09 1808 1

原创使用Visual Studio 2019编译Telegram 源码(Windows 版)

本文写于2020年8月4日22:40，此时telegram版本更新到了最新版V2.2.0★ 重点： 1) Visual Studio 需要用2019版的，且是 VS 2019 16.5.0版本(之前用的16.6.5版本都报错，论坛里提倡使用16.5.0版本)，VS各版本的下载链接为：https://docs.microsoft.com/en-us/visualstudio/releases/2019/history 2）本文的编译步骤完全采用官方手册的指导步骤，链接为：ht...

2020-08-05 20:42:45 3591 4

原创 python 实现协同过滤算法并应用奇异值分解(SVD)优化

★ 协同过滤算法：协同过滤算法可以分为基于用户的协同过滤算法和基于物品的协同过滤算法。 (1.) 基于物品的协同过滤算法: 它是计算物品之间的相似度，并根据物品之间的相似度给目标用户未评分项进行预测。即列与列之间的比较。 ✿ 目标用户 u 对未评分项 i 的预测公式为： ...

2019-04-23 15:53:57 1482

原创 python实现PCA

★ PCA个人理解： PCA降维是通过变换坐标系，来尽可能的减少信息损失。★ PCA思路：我们的初始矩阵为X，它是m×n维的矩阵，其中：m是该数据集有m条记录，n是每条记录中有n个特征，X的基本格式为：我们看出矩阵X每一行就是一条记录，每一列就是特征，我们想要对它降维...

2019-04-21 22:15:55 25824 7

原创 python实现FP-growth算法发现频繁项集

★ FP-growth算法的作用：该算法是代替Apriori算法来高效发现频繁集，但不能用于发现关联规则。★ FP-growth算法的组成：该算法需要构建三部分：1. 项头表 2. FP树 3.节点链表 ✿ 举个例子：现在有如下6条事务：TID Item 1 [ 'r', 'z', 'h', 'j', 'p'...

2019-04-16 22:31:48 3901 5

原创 python实现Apriori算法

★ 关联分析：从大规模数据集中寻找物品间的隐含关系被称作关联分析。而寻找物品的不同组合是一项十分耗时的任务，所需的计算代价很高。Apriori算法正是来解决这一问题。物品之间的关系一般可以有两种形式：频繁项集和关联规则。频繁项集：数据集中经常出现在一块的物品的集合。关联规则：两种物品之间可能存在很强的关系。...

2019-04-09 22:34:04 40285 13

原创 python实现K-均值聚类和二分K-均值聚类

★ K-均值算法流程： (1.) 随机选出K个质心： K是需要我们预先给定的质心的数量，K取多少需要我们去试凑，它直接影响着最后的聚类结果，是K-均值聚类算法的缺点之一。给定K之后，如何选出这K个质心呢？我们的数据集特征的取值有最大值最小值，而这些最大最小值构成数据集边界，我们选的质心显然要在这边界之内，而满足在边界之内的数据满足，所以，...

2019-04-03 19:20:18 1295 2

原创 python实现CART回归树

★ CART回归原理： CART回归树是二叉树，它的损失函数是最小均方差(MSE)： ① 其中，N是样本数，是我们的估计值。我们把损失函数L对求导并令其为0：...

2019-03-25 22:38:35 3583

原创 python实现AdaBoost算法

★ AdaBoost的理解：对于二分类而言，我们通过一个阈值threshVal将数据集划分为两种分类(正类和负类)，而这个阈值就是我们所说的分割线，只不过它总是平行于坐标轴(因为我们取的基分类器是单层决策树)：对于上述数据集，一个基分类器即可将其分类，但是对于大多数训练集而言，一个基分类器是不足够的，比如：在图3中，我们找...

2019-03-14 19:26:14 13974 7

原创 python 实现支持向量机(SVM)

★ SVM简述： (1.) 数据集线性可分：对于线性可分的数据集，我们可以找到n个决策面将其分割开来，如下图所示：由于我们的示例图是二维的，所以决策面在这里是一条直线，但是上图中的粉色线条的分类性能是优于其他线条的，这里涉及到第一个SVM独有的概念“分类间隔”——在保证决策面方向不变且不会出现错分样本的情况下移动决策面，会在原来的决策...

2019-02-25 16:38:13 9765 2

原创 python实现逻辑回归

公式推导(使用向量化方法) => 极大似然函数： -----① 其中: ...

2019-02-19 22:26:37 681

原创 python实现朴素贝叶斯算法

公式推导 => 条件概率公式: ，又有乘法公式：把乘法公式带入条件概率公式可得最终公式：公式理解： ...

2019-02-18 16:46:15 3289

原创 pyspark使用ML库并用pyspark2pmml把模型保存为pmml格式

一、准备工作使用Idea开发pyspark程序，在这之前我们需要做一些准备工作，如同PyCharm开发pyspark程序一样，我们需要先对python项目进行配置：1. 使用anaconda3里面的python 打开File -> Project Structure -> Project ,其中Project SDK的路径设为anaconda3的pyt...

2018-11-20 17:20:47 6163 1

原创 spark编程的例子

问题需求：表1记录了学生的 ID 、姓名、性别、学历，表2 记录里学生的ID，要求根据表2 中的 ID从表1中筛选出符合要求的学生的信息思路：把表2和表1合起来 -> 以ID为键构成(K,V)对 -> 把相同的键对应的值加起来 -> 将每个值拆分并提取特征 -> 选出符号要求的项 ...

2018-10-18 16:08:33 1558

原创用Idea开发spark程序

摘要：我们一般选择IntelliJ IDEA书写spark程序，然后打包成jar文件，放到spark集群中运行，接下来我将以WordCount为例仔细讲述Scala程序的 "创建 => 编写 => 打包 => 运行 " 这一过程。所需工具：1. spark 集群(并已经配置好Standalone模式，我的spark集群是在docker中部署的，上一篇博文讲过...

2018-10-16 11:45:38 2010

原创 python实现决策树算法

决策树伪代码是：检测数据集中的每个子项是否为同一个分类如果是，则返回该类标签如果不是：根据信息增益寻找划分此数据集的最好的特征划分数据集创建分支节点 for 每个划分的子集...

2018-09-21 08:38:29 457

原创 python实现kNN算法(k-近邻算法)

kNN算法的伪代码如下：计算当前点与已知类别的数据集的每个点的距离距离公式为d=[(x-x₀)²+(y-y₀)²]½ 按照求得的距离按递增排序 argsort() 排序选取与当前点距离最小的k个点确定选取的这k个...

2018-09-19 21:36:45 735

原创 docker环境下搭建hadoop集群(ubuntu16.04 LTS系统）

我的思路是这样：安装ubuntu系统---->下载docker---->在docker里拉取hadoop镜像---->在此镜像里创建三个容器(Master、Slave1、Slave2)---->完成完全分布式1. 安装ubuntu系统(无论你是安装的单系统，还是用虚拟机安装了ubuntu) 如果想安装单系统，步骤如下：（1) 把ubuntu镜...

2018-09-18 12:48:19 5096 30

weixin_42051109的博客