- 博客(177)
- 资源 (2)
- 收藏
- 关注
原创 决策树和CART算法的精炼详解(尽量写到位,不留"论文债")
1 决策树算法1.1 决策树简介1.1.1 什么是决策树决策树主要有二元分支和多元分支.决策树是判定树内部结点是决策节点: 对某个属性的一次测试分支: 每条边代表一个测试结果.叶子: 代表某个类或者类的分布使用决策树进行判别:决策条件-决策路径-叶子(结果)代表分类决策树的数学模式解题思路:贪心的算法 greedy solution不是最好的树,全...
2019-10-06 17:07:06
751
原创 apache flink的python客户端开发
1 flink开发环境安装下载git clone https://github.com/apache/flink1.1 cmd命令行执行:set MAVEN_OPTS="-Xmx4G"mvn clean install package -Dmaven.test.skip=true1.2 powershell命令行执行set MAVEN_OPTS="-Xmx4G"mvn clean...
2019-10-05 07:00:33
4510
2
原创 apache hadoop2.7的部署安装
1 准备工作1.1下载安装包hadoopwget http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gzjdk1.8.0_121下载mysqlwget https://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-community-serve...
2019-10-04 22:20:12
863
原创 pytorch的基本使用, 函数实现SDG法训练网络, 梯度下降法(DG)案例
1 pytorch的概念1.1 tensor张量1.1.1 PyTorch的tensor与NumPy array相互转换PyTorch的很多操作和numpy都是类似的,但是因为其能够在 GPU 上运行,所以比 NumPy 快很多。import torchimport numpy as np# 创建一个 numpy ndarraynumpy_tensor = np.random.ran...
2019-10-04 17:54:39
3043
1
原创 传统关联规则挖掘(apriori,fpgrowth)简介
1 传统关联规则挖掘1.1 简介目标: 发现事务数据库不同项之间的联系, 这些联系构成的规则, 可以帮助找到某些行为特征,帮忙决策场景: 超市, 网络浏览偏好, 入侵检测, 生产等领域与序列挖掘的不同:不考虑事务内,或者事件之间的先后顺序只考虑前件,后件不相交的项集1.1.1 相关的概念全局项I: I={i1,i2,...,ij,...,imi_{1},i...
2019-10-03 18:20:57
1639
1
原创 聚类算法_层次聚类_密度聚类(dbscan,meanshift)_划分聚类(Kmeans)详解
注: 两整天的成果,谬误之处勿喷1 聚类概述样本没有训练的样本没有标注的样本1.1 相似度度量1.1.1 距离相似度度量距离度量 dist(oi,oj)dist(o_{i},o_{j})dist(oi,oj)欧式距离距离相似度度量sim(oi,oj)=11+dist(oi,oj)sim(o_{i},o_{j})= \frac{1}{1+dist(o_{i},o_...
2019-10-02 21:57:01
6300
1
原创 ElasticSearch的状态查看
1.1基本状态查看集群状态 get _cluster/health get _cluster/state get _cluster/settings get _cluster/pending_tasks 注: get _cluster/health查看分片状态 get _cluster/state查看nodes,me...
2019-09-29 15:00:48
17737
原创 pytorch简介: 使用梯队下降进行线性回归案例
1 梯队下降法:1.1 梯队比如一个一个函数f(x,y)f(x, y)f(x,y),那么 fff 的梯度就是(∂f∂x, ∂f∂y)(\frac{\partial f}{\partial x},\ \frac{\partial f}{\partial y})(∂x∂f, ∂y∂f)可以称为 gradf(x,y)grad f(x, y)gradf(x,y) 或者 ...
2019-09-19 17:43:55
321
原创 dl_tensorflow_guide_低阶API
1 低阶API设置python环境pip3 install tensorflow==1.12 -i https://pypi.tuna.tsinghua.edu.cn/simplefrom __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functio...
2019-09-19 15:10:37
297
原创 dl_tensorflow_tutorials_线性回归
0 导入包%matplotlib inlineimport matplotlib.pyplot as pltimport tensorflow as tfimport numpy as npfrom sklearn.metrics import confusion_matrix1 定义数据1.2 加载数据from mnist import MNISTdata = MNIST(d...
2019-09-19 15:04:22
213
翻译 ml_ensemble_boostedtrees_guide
极端梯队提升 Extreme Gradient Boosting贪婪函数逼近 Greedy Function Approximation梯队提升树 gradient boosted trees监督学习 Supervised Learning模型和参数 Model and Parameters线性回归预测为例 linear model prediction :\hat{y}i = \su...
2019-08-06 20:32:41
383
原创 ml_svc_预测股票
目标: 根据2019-01-01 至 2019-07-30 , 沪市指数的收盘价, 使用SVR, 回归预测 2019-07-31( 或者2019-08-01)的收盘价拟合结果:[LibSVM]..........................*...........*optimization finished, #iter = 10450obj = -17004...
2019-07-31 15:28:48
798
原创 ml_linear_预测股票
__author__='徐长亮'# pip install tushare# pip install plotlyimport osimport numpy as npimport pandas as pdimport tushare as tsfrom datetime import datetime as dtimport matplotlib.pyplot as plti...
2019-07-26 10:24:02
422
原创 linux expect 判断项实现sftp目录创建和上传的功能
#!/usr/bin/expect# 脚本名称: sftp.sh# 执行例程 expect sftp.sh '192.168.1.1' 'user' 'passwd' '/DXP/DATA/EDW/ROUT/BEIJING_2016-12-01.DAT' '/app/sftp/BCSS_FILE/BCSS/EC/201907'if {$argc < 5} {puts "Usa...
2019-05-07 14:04:52
2866
原创 再聊三范式,公司的java工程师真的不了解三范式,给我们数据仓库带来很多困扰
第一范式:1.表述:列的值唯一性2.违反范式1的是另外一种含义:一个列的存放多个列的数据,不方便数据使用、修改和删除,可维护性极差第二范式:1. 表述属性完全依赖于主键:(1)必须满足第一范式 (2)必须有主键 (3)其他列必须完全依赖于主键2.违反范式2的是另外一种含义:将两个实体放在同一个表中,不方便其中一个实体数据的单独维护第三范式:1....
2018-12-03 15:51:52
555
2
原创 利用vbscript清理C盘大文件
思路是:1.轮询查找C盘(或者其他目录)的所有子目录及子文件夹2.如果是文件,不是目录,则判断文件的大小,自定义阈值比如100M3.满足条件的文件,将文件的绝对路径,文件名,文件大小,修改日期等,写入到excel中注:还有很多缺陷没有做,后续更新,未完待续dim xlsAppdim xlsWorkBookdim xlsSheetdim fileappdim fol...
2018-10-15 16:45:28
612
原创 HP vertica收集表的统计信息
一.通过PROJECTION_COLUMNS的statistics_type查看表的列的统计信息类型,和收集时间SELECT projection_name,projection_column_name, statistics_type,statistics_updated_timestamp, column_positionFROM PROJECTION_COLUMNS ...
2018-04-13 10:58:36
1694
原创 ElasticSearch 5.6和6.2 Index Templates的区别
ElasticSearch 5.6PUT /_template/template_wopayapp{ "template" : ["wopayapp*"], "order" : 0, "settings" : { "number_of_shards": 1, "number_of_replicas": 1 }, "mapp
2018-02-28 16:06:29
3091
原创 ElasticSearch-R语言接口包api
ElasticSearch R语言接口,ELK R语言接口,ElasticSearch R语言包,R语言elastic包
2017-08-15 20:46:20
3213
1
原创 vbscript管理磁盘文档目录
目的:通过vbscript生成磁盘目录和文档的清单,写入到excel中保存途径: 通过wscript的Excel.Application对象和Scripting.FileSystemObject对象函数: a. writexls写入excel内容 b. listfiles遍历所有文件 c. listsubdir列出所有的子目录并且遍历迭代注意事项: a. 获取当前目录:cre
2017-07-05 09:01:55
2404
原创 完全分布式安装Hadoop,Hive,Hbase,Hwi,Zookeeper-500行说明
HDFS YARN zookeeper HBASE HIVE HIVE hwi的启动HDFS和HBASE动态增加和减少节点完全分布式安装Hadoop,Hive,Hbase,Hwi,Zookeeper
2017-04-08 15:33:18
4132
1
原创 HDFS YARN zookeeper HBASE HIVE HIVE hwi的启动
三.启动zookeeper/app/zookeeper-3.5.2-alpha/bin/zkServer.sh startssh node02 '/app/zookeeper-3.5.2-alpha/bin/zkServer.sh start' ##/etc/profile不生效/app/zookeeper-3.5.2-alpha/bin/zkServer.sh status四.启动hbase[root@node01 ~]# start-hbase.sh
2017-04-08 12:55:35
1208
原创 HDFS和HBASE动态增加和减少节点
一.HDFS动态增加节点:sbin/hadoop-daemon.sh start datanodesbin/hadoop-daemon.sh start tasktrackerDEPRECATED: Use of this script to execute mapred command is deprecated.Instead use the mapred comman
2017-04-08 12:48:58
5480
原创 SQL查询结果添加行号
方法1:rownum缺点,rownum的顺序,order by之后,会发生变化方法2:序列.缺点:每次调用序列的nextval()方法之后,序列的值加一,就不能保障第二次执行sql,序列是从1开始的.推荐方法: 使用count() over() 分析函数.例子如下:select count(node_id) over(order by node_id row
2017-03-08 09:55:20
10895
原创 数据仓库之四部"圣经"
Bill Inmon在Building the Data Warehouse主张建立数据仓库时采用自上而下(DWDM)方式Ralph Kimball在The DataWarehouse Toolkit则是主张自下而上(DMDW)的方式
2017-02-06 10:56:34
3187
1
原创 ETL解决方案之ETL子系统详解
ETL解决方案之ETL子系统详解一前言-ETL子系统由来作者kimball在2002年出版的《The data warehouse etl toolkit》定义了38个ETL子系统。在2008年出版的《The data warehouse lifecycle toolkit》中,ETL子系统被重构为34种子系统。本文就详细介绍这34个ETL子
2017-01-10 13:13:11
4432
原创 Backing Up and Restoring the Database
Backing Up and Restoring the Database HP Vertica支持一个综合的应用,vbr.py Python script,它的功能包括:back up, restore, list backups,把数据库复制到其他集群。备份支持object-level backups,备份用户和表。对于全库,可以创建全量或者增量的备份。如果存在一个全量的备份,我们可以恢复全库
2017-01-09 14:28:54
974
原创 Sublime Text 3 运行perl程序
sublime text 3功能强大,备受外国人喜欢。但是一部分国人,喜欢用Notepad++,优势处理中文,保存为GBK格式的文本。一部分国人,喜欢用UltraEdit,优势是处理几十G,几百G的大文本文件。Sublime运行Perl程序新建Perl目录,新建一个,Tools->Build System->New Build Syste
2017-01-05 15:06:08
4666
原创 温故而知新-python语法复习
1.程序的输出import sys;sys.stdout.write("helloworld\n");hello world print("%s is number %d" %("ten",10));ten is number 10 注:不同意print(),write()不会自动在字符串后面添加换行符 2.程序的输入import sys;user=inpu
2016-12-19 14:40:11
880
原创 PLSQL developer破解版-sql注入防范
执行plsqldev906.exe开始安装为例解压之后:执行plsqldev906.exe开始安装。安装目录为:%ORACLE_BASE%\plsqldev,和oracle 11g安装到同一个基目录下面在安装目录C:\software\Oracle\plsqldev中找到AfterConnect.sql和login.sql发现:发现AfterCo
2016-12-09 14:40:06
2904
原创 HP Vertica使用java编写user defined function(UDF)嵌入函数
前言:不管是hive,mysql还是vertica的内置函数,为我们的使用提供了方便,但是功能是远远不够的;这时候就需要我们通过其他编程语句,写在数据库上运行UDF自定义函数1 Developing with the Java SDK1.1 Java SDK支持的功能【1】Java支持的数据类型:INTEGER,FLOAT, DATE, CHAR, VARCHAR
2016-11-11 17:15:59
2412
原创 HP Vertica数据库的备份和恢复
Backing Up and Restoring the DatabaseHP Vertica支持一个综合的应用,vbr.pyPython script,它的功能包括:back up, restore, list backups,把数据库复制到其他集群。备份支持object-levelbackups,备份用户和表。对于全库,可以创建全量或者增量的备份。如果存在一个全量的备份,我们可以恢复全库,
2016-11-11 16:39:48
4405
原创 Hp Vertica数据库Perl编程
Hp Vertica数据库Perl编程Perl语言有Database Interface module,叫做DBI。DBI执行特定的数据库的任务,依赖Database Driver modules (DBDs)DBI:和数据库的交互,具有持续性。Perl操控HP Vertica方式:DBI模块的DBD::ODBC和HP Vertica's ODBC driver交互
2016-11-06 09:55:07
1750
原创 Python Django的使用:Writing your first Django app--实践
Writing your first Django app, part 1安装djangoC:\Windows\system32>python -m django --version1.10.2Creating a projectFrom the command line, cd into a directory where you’d like to store your
2016-10-27 17:06:27
1867
原创 java基本语法-装箱转换和拆箱转换
情形1:将基本类型的值传递给一个方法,而这个方法需要参数是一格指向对象的引用;从基本类型转换为类,称为装箱情形2:对于封装基本类型的类,需要指向对象的引用转换为封装的值,称为拆箱;package test;/** * @author Clark * 装箱:Integer i = 100; (注意:不是 int i = 100; ) * 实际上,执行上面那句代码的时候,系
2016-10-27 11:22:31
931
原创 mysql sql技巧: 子查询改为连接查询&&涉及多个表的删除和更新
涉及多个表的delete语句 可以使用select语句中的任意一个联结操作语法,from字句列出删除的表,using用来联结表 delete from t1 using t1 inner join t2 on t1.id=t2.id;delete from t1,t2 using t1 inner join t2 on t1.id=t2.id;
2016-10-22 16:08:17
7574
原创 linux使用yum安装MySQL5.6及Unknown/unsupported storage engine: InnoDB处理
If you're using MySQL 5.6+ and want to disable InnoDB, don't forget "--default-tmp-storage" or it won't work:
2016-10-19 15:43:43
8908
原创 hadoop-hive本地和伪分布式模式的安装
关于虚拟机安装hive,hadoop的资料林林总总,对于初学者很难甄别;如下是按照官方doc,一步步经过实践的一种方法,思路比我搜到网上的帖子更清晰;初学,难免有错误的地方,敬请指正。
2016-10-16 18:34:29
5776
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人