@小二黑-优快云博客

原创异常检测–孤立森林–Isolation Forest

在文章中，Isolation一词的意思是将实例从其他实例中分离出来。由于异常点少且不同，因此它们更容易受到孤立。在数据诱导的随机树中，实例被重复的分割，直到所有实例被隔离。这种随机划分为异常产生了明显的较短路径，因为(a)在树结构中，较少的异常实例导致较少的分区较短路径，(b)具有可区分属性值的实例更有可能在早期分区中被分离。因此，当随机树组成的森林对某些特定点产生更短的路径长度时，它们很可能是异常的。

2024-11-12 15:43:16 1023 1

原创文本主题提取--LDA

论文下载链接提取码：nm62 概念：LDA模型是一个对类似文本语料的离散型数据集合的生成概率模型。LDA是一个三层的贝叶斯层级模型，集合的每一条数据在一系列主题的基础上作为一个有限的混合被建立模型。每个主题是一系列主题概率混合构建，在文章的上下文中，主题概率模型对文档提供了一个清楚的呈述。因此提出了基于变化的有效近似推断技术和基于先验的贝叶斯参数估计的EM算法。作用：此模型可以做文档分类、协同过滤、unigram模型的比较、和LSI模型概率。目的：从离散的数据中找到一..

2024-06-05 10:16:39 1194

原创 Java 中的date与字符串的转换以及日期间隔计算

一、日期与字符串的互相转换将date转换为string用sdf.format() 将 string 转换为 date 用 sdf.parse() import java.text.SimpleDateFormat;import java.util.Date;SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");Date date = new Date();System.out.println("...

2021-09-23 16:50:35 1187

原创 Geopy进行地址经纬度等转换

Geopy进行地址经纬度等转换目录Geopy进行地址经纬度等转换Geopy是怎样工作的呢？Geopy的下载Geopy的应用Geopy官方文档https://geopy.readthedocs.io/en/latest/#Geopy可以满足地址经纬度转换等操作。Geopy是怎样工作的呢？就像官方说的geopy地理编码由许多不同的服务提供，这些服务与geopy没有任何关联。说到底geopy的地理编码是通过调用API服务得到我们想要的东西。地理编码服务有Googl...

2020-12-31 10:06:38 1561 2

原创聚类评价指标(轮廓系数 Silhouette coefficient)

聚类评价指标最近在做聚类的项目，聚类得到结果后我们需要知道聚类的好坏，用哪个算法效果比较好。肯定要选择那个最好评价的算法。今天我们就不谈算法只谈算法结果的评价。我也从网上看了很多的别人写的东西，总之是五花八门的。那下面我们言归正传。聚类算法是机器学习算法中的一种无监督算法。那么在生活中我们大多数做项目的话其实数据集都是为标定的。我看到许多人有写到通过有label的样本，计算它的混淆矩阵。这不乏是一种办法，那么今天说的方法其实是一种内部方法，就是说通过聚类后的结果label来计算的一种评价指标。内部有

2020-08-22 22:33:53 27258 4

翻译 XGBOOST算法过程

自从在2014年9月xgboost在kaggle夺得魁首后，xgboost在各种竞赛场合出现频率越来越多。之后将xgboost引入到电子商务的商品推荐算法中，建立分类预测模型，具有速度快、准确率高等优势。xgboost本质上还是GBDT，但是xgboost对loss func做了二阶的泰勒展开，并在目标函数之外加入了正则项整体求最优解，用以权衡目标函数的下降和模型的复杂程度。监督学习的概念...

2020-03-25 19:25:04 750

原创 Jupyter notebook 的默认路径的修改

每次在电脑安装Anaconda之后用jupyter notebook都很麻烦，改变默认后会很方便之后的存贮以及翻阅。第一步：通过 win+r 打开命令行输入jupyter notebook --generate-config之后会看到jupyter 的配置文件，一般情况下会存在 C盘/user/用户名/.jupyter这个路径下，然后就对jupyter_notebook_conf...

2019-11-10 23:20:09 230

转载获取分组后取某字段最大一条记录（求每个类别中最大的值的列表)

获取分组后取某字段最大一条记录方法一：(效率最高)select * from test as awhere typeindex = (select max(b.typeindex)from test as bwhere a.type = b.type );方法二：(效率次之)selecta.* from test a,(select type,max(typeindex) t...

2019-08-20 23:26:32 291

转载 pyspark的常用命令

1. 获取SparkSessionspark = SparkSession.builder.config(conf = SparkConf()).getOrCreate()2. 获取SparkContext1. 获取sparkSession： se = SparkSession.builder.config(conf = SparkConf()).getOrCreate(...

2019-07-03 23:19:30 1459

转载 Mysql的多数据处理及优化

这段时间面试遇到了一些关于MySQL优化的问题，很惭愧答得不好，所以回来后就从网上找了一些资料来看，感觉这篇文章写的不错，特将优化部分拿来分享给大家，也是给自己保存干货。对于实践部分大家可以到下面的网站进行阅读。https://blog.youkuaiyun.com/chivydrs/article/details/81670475单表优化除非单表数据未来会一直不断上涨，否则不要一开始就考虑拆分...

2019-07-01 11:54:52 235

原创决策树(Decision Tree)算法的构成及过程

痛苦总是走在勇敢之前。 -题记一.决策树何为决策树？决策...

2019-06-12 16:59:53 1017

原创 Mysql将分组后的数据按条件合并group_concate

加粗样式@TOC欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将...

2019-06-06 20:46:15 5888

｀小二黑的博客