
机器学习
文章平均质量分 86
乾坤瞬间
一花一世界,一树一菩提。谈笑一乾坤,安然一瞬间
展开
-
DFA如何识别一个被3整除的数字串的正则表达式
需要具备的只是 编译原理 前第三章(词法分析,大概花个17个课时就可以了,读者要是感兴趣的话,可以多多深入了解)东南大学 廖力老师的编译原理很不错,推荐读者自己看看,(考前必备良品!)基本概念讲解即如下知识正规集,在编译原理中叫做 语言->L(α)L(\alpha)L(α) ,也就是说有句子的集合(这里要对句子有个非常清晰的理解,句子就是符合语法规则的字符串(更准确地应该叫做终结...原创 2020-04-22 13:34:10 · 3611 阅读 · 0 评论 -
spark2.4.0 sql dataframe向上补齐操作(含udaf操作)
文章目录方案一方案二思考方案一使用窗口函数以及index实现具体操作放大图查看方案二使用窗口函数的特性以及spark2.4.0 新的array特性进行结合具体操作放大图查看其中所指的窗口函数聚合函数(index索引) over(order by index rows between unbounded preceding and current row)表示针对每...原创 2019-11-04 11:44:50 · 1101 阅读 · 0 评论 -
spark sql 高阶函数介绍
文章目录背景transformtransform 嵌套执行(nest)existsaggregate 聚合背景An Introduction to Higher Order Functions in Spark SQLNested data types offer Apache Spark users powerful ways to manipulate structured data. ...原创 2019-11-04 11:14:22 · 961 阅读 · 0 评论 -
spark pom文件 胖廋包结合
这里写自定义目录标题背景pom.xml 以供参考背景平时会有同僚(尤其是新手),一直很疑惑,本地开发的spark应用都运行得好好的,一旦编译文件之后就通不过,可能会有出现各种坑,其中就是使用sdt方式很容易导致项目使用的scala版本与本地编译的版本起冲突这里使用maven-shade-plugin 用来编译同时会生成两个包其中 feature-1.0-SNAPSHOT.jar 为胖包...原创 2019-09-27 13:54:04 · 361 阅读 · 0 评论 -
时间戳范围内正则表达式 生成器 解决方案
需求说明如何求出一个正则表达式,表示在 1324736000 到 1546272000之间的数例如15423232231这个根据正则表达式能够识别出来为true实际应用这个需求是因为由于公司内部rowkey的设计导致的,rowkey为 id+timestampe如果想对整个表中的指定1324736000 到 1546272000范围内的数据进行聚合操作其中一个解决方案是用row...原创 2019-08-27 22:21:25 · 1335 阅读 · 6 评论 -
elasticsearch7.1.0 ik中文分词快速搭建本地测试环境(docker版本)
docker nameversionelasticsearch7.1.0kibana7.1.0 > git pull https://github.com/medcl/elasticsearch-analysis-ik.git > cd elasticsearch-analysis-ik > mvn clean compile packa...原创 2019-07-18 11:10:48 · 1632 阅读 · 0 评论 -
关于t-sne 可视化方法的 原理与推理 (一)
1.在很多领域中,高维(dimension)数据的可视化已经日益变成一种非常重要而亟需解决的一个问题。这种问题主要源自于人们无法直观理解高维空间中的数据,比较人们的思维普遍还存在于三维空间中来处理、理解事物。经过科学家的能力,在可视化技术中出现了非常不错的方法,而主要的方法就是通过降维的手段来处理数据,并投影到二维或三维空间中,主流的有 PCA(主成分分析)、MDS(multi-dimension...原创 2018-03-23 20:39:10 · 7762 阅读 · 1 评论 -
sklearn 多分类任务与多标签分类任务的计算
#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Mon Feb 12 16:11:26 2018@author: zhangll"""from sklearn import svmimport matplotlib.pyplot as plt #from sklearn import datasets # 数据源类(里面包含各种...原创 2018-02-12 18:02:17 · 5750 阅读 · 0 评论 -
用计算机语言理解随机变量和样本的区别
在统计学领域有两个核心的基本概念,其中一个是随机变量,而第二个是样本如果不做深入思考的话,大可以百度看看这两者之间到底是什么联系.我想大家可能会知道个大概.但是理解这个两者的区别至关重要,对这两者的区别,决定了你看论文以及后续学习统计学概念的一大非常非常重要,而且是直接影响后续深入的一大门槛,而在自己工作的这些年,我对这两者之间的联系再做一个区分度更大的直观解释.很多人开始接触学习统计学的第一步都...原创 2018-02-12 15:18:18 · 3937 阅读 · 5 评论 -
python 中的 sklearn 初识
#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Sat Feb 10 00:35:51 2018@author: zhangll"""from sklearn.neighbors.kde import KernelDensity as KDfrom sklearn import svmimport matplotlib.pypl...原创 2018-02-11 18:42:24 · 548 阅读 · 0 评论