- 博客(119)
- 资源 (17)
- 收藏
- 关注

原创 STORM入门之(Trident集成Hbase)
Trident方式集成Hbase(1)测试时需要配置hbase正确的hostwin:C:\Windows\System32\drivers\etc\hostsliunx:/etc/hosts(2)Trident实现import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Con...
2018-11-19 14:11:01
431

原创 STORM入门之(Trident杂记)
Trident杂记练习Demo练习:newStream创建新流体,each集成函数,过滤器,分发操作(shuffer等),patition分区聚合package com.neusoft.soc.topology;import java.util.HashMap;import java.util.Map;import org.apache.storm.Config;impor...
2018-11-06 16:21:49
227

原创 朴树贝叶斯 sklean 文本分类实现
读取本地文件进行分析,分词中英文都支持,可以换结巴分词。训练样本可以自己定义,目录结构就是当前项目的 data_log文件夹,一级目录是类别,二级目录是文件即可。博主训练集合 仅供参考:http://download.youkuaiyun.com/download/yl3395017/10236998from sklearn.datasets import load_files# 加载数
2018-02-02 14:23:55
575

原创 STORM入门之(集成HDFS)
总体Storm集成hdfs需要做前期工作1.hadoop单机版安装2.自己写hdfs demo 查看是否写入成功首先让我们来安装hadoop 版本:hadoop-native-64-2.6.0.tarjdk:1.7Hadoop部分(1)hadoop配置文件修改core-site.xml hadoop.tmp.di
2017-11-14 13:58:37
923

原创 STORM入门之(TridentTopology集成Kafka)
基本前几篇文章是StormTopology集成Kafka 是Storm基本入门知识 传送门:http://blog.youkuaiyun.com/yl3395017/article/details/77477716这篇介绍TridentTopology集成Kafka 话不多说 上代码Topology构建package com.storm.topology;import com.storm.
2017-09-04 09:28:19
800

原创 STORM入门之(TridentAPI,Aggregation)
基本介绍Aggregation是Trident的基本基本api 主要作用是聚合,如下聚合方法作用是记录单词出现的次数package com.storm.trident;import org.apache.storm.shade.org.apache.commons.exec.util.MapUtils;import org.apache.storm.trident.operation.
2017-09-01 12:44:25
932

原创 STORM入门之(TridentAPI,Each)
1.基础基础Topology与TritentTopology是不同的,就相当于JDBC VS Hibernate ,Hibernate是基于JDBC实现的ORM架构,二者本质是相同的,但是用法截然不同,Trident会抽象一些,不过底层也是基于Topology的Spout,Bolt等基础来构建,并且最终提交任务时,TritentTopology是会转换成Topology。Each相当于把Sp
2017-08-31 16:39:14
772

原创 STORM入门之(Flume Kafka集成架构)
FlumeFlume作用:收集日志组件下载地址:http://archive.apache.org/dist/flume/1.6.0/ 版本:1.6.0以上集成KafkaFlume配置a1.sources = r1a1.sinks = k1a1.channels = c1 a1.sources.r1.type = syslogudpa1.sources.r1.po
2017-08-25 17:01:42
620
原创 V2X,路测单元,RSU,Map消息集
定义车道与下游路段车道的连接关系。包括下游路段出口节点ID、连接的下游路段车道基本信息以及对应的信号灯相位号。在车道连接中定义的相位号,是对Movement定义的转向的相位号的一个补充。上游节点id和下游节点id定义的路段与下游路段的连接关系,既当前link行驶下一个link的下游nodeID值。,车道信息,规定从上游节点向下游节点的方向,从左到右依次为1/2/3。车道中心线点序列集合,将车道均等分N个point,取其经纬度坐标。指该路段能够进行的行为,指该路段能够左转和直行,
2023-01-06 13:59:07
1472
原创 Linux创建sftp帐号
(1)创建sftp帐号groupadd sftpUsersuseradd -d /home/lnboss -s /sbin/nologin -g sftpUsers lnbosspasswd lnboss********cd /etc/sshcp -p sshd_config sshd_configbakvim sshd_config#注释掉#Subsystem ...
2020-03-31 09:52:58
385
原创 Centos firewall-cmd 基本操作合集
安装Firewall命令:yum install firewalld firewalld-configFirewall开启常见端口命令:firewall-cmd --zone=public --add-port=80/tcp --permanentfirewall-cmd --zone=public --add-port=443/tcp --permanentfirewall-cmd...
2020-03-31 09:28:24
1529
原创 Spark SQL 基本操作
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://m...
2020-03-05 17:00:24
298
原创 Spark Core基础RDD操作【map,flatMap,mapPartitions,flatMapToPair】20200302
Spark Core基础RDD操作【map,flatMap,mapPartitions,flatMapToPair】 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId...
2020-03-02 16:12:53
438
原创 sftp建立用户,目录鉴权
需求:提供sftp服务端sftp -oPort=10022 sftpUser@47.92.134.88---------------------------------------sftp用户创建-----------------------------------------groupadd sftpUseruseradd -d /home/sftpUser -s /sbin/n...
2019-09-03 15:23:43
356
原创 linux系统下vsftpd用户创建,指定文件夹
工作记录20190415需求:由于内网传输 非敏感信息提供ftp传输,就不采用sftp了安全措施:目录加权,账号密码#linux创建ftp用户#root用户下执行:useradd -d /home/test -m testusermod -s /sbin/nologin test (限定用户test不能telnet,只能ftp)#usermod -s /sbin/bash...
2019-04-15 15:47:37
1792
原创 ElasticSearch SearchApi总结
参考:https://blog.youkuaiyun.com/majun_guang/article/details/81103623整理:Clientpackage com.mobile.es;import java.net.InetAddress;import org.elasticsearch.client.transport.TransportClient;import org.e...
2019-03-22 10:47:38
233
原创 ElasticSearch Chrome Head插件
Chrome输入chrome://extensions/下载chromeFOR.COM_elasticsearch-head_v0.1.3.crx 安装包安装即可地址:http://hk.chromefor.com/down.php?key=6FXBo8dEBC4a8PssqefF
2019-03-21 08:37:20
6268
原创 基于sftp的shell编程
基于sftp的shell编程两个组件(1)expect首先安装expect 需要两个tar.gz 如下所示 tar zxvf tcl8.4.19-src.tar.gz cd tcl8.4.19/unix && ./configure make make installtar zxvf expect5.45.tar.gzcd expect5.45....
2019-03-12 13:56:13
1421
原创 STORM入门之(TridentState以及聚合函数细节描述)
(一)Aggregator函数是batch聚合,最好与groupBy分组联合使用,意思为根据具体的fields进行聚合,如果是分词那么就是根据具体的单词进行聚合,相同的单词聚合到一起,聚合并发单词的数量使用parallelismHint才可生效,否则永远都进行全聚合生效方式.partitionBy(new Fields("word")) //分区.each(new Fields("wo...
2018-12-10 17:16:56
580
原创 Trident Mark
import java.util.HashMap;import java.util.Map;import org.apache.storm.Config;import org.apache.storm.LocalCluster;import org.apache.storm.generated.StormTopology;import org.apache.storm.trident...
2018-11-14 14:41:59
235
原创 Kafka异常
单机版kafka测试producer发送消息异常如下:(1)ERROR fetching topic metadata for topicskafka.common.KafkaException: Fetching topic metadata with correlation id 0 for topics [Set(test)] (2)ERROR Failed to ...
2018-11-07 14:54:31
1513
原创 hbase本机测试卡死
无异常 只有log4jSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/E:/jar/hbasejars/log4j-slf4j-impl-2.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found bin...
2018-08-27 10:18:21
323
原创 Flume监听oracle表增量
需求:获取oracle表增量信息,发送至udp514端口,支持ip配置步骤:(1)需要的jar oracle的 odbc5.jar(oracle安装目录 /jdbc/lib下查找)(2)flume的开源包flume-ng-sql-source-1.4.3.jar 最新的好像是1.5的 小版本记不住了 这个下载地址直接csdn上就有这两个jar 都拷贝到flume的lib下...
2018-07-17 10:52:01
3694
4
原创 STORM入门之(HIVE集成架构)
集成方式 hivebolt注意事项版本误差会导致乱七八糟各种找不到,未定义异常 找起来很头疼 hive版本2.1.1 storm版本1.0.5 hadoop版本2.6.5在windows跑local模式连接linux hive会出现unix验证类找不到,这个是rt.jar中的class,只有liunx版本才会有,所以windows跑程序的时候,要安装本地的hive,这块需要注意一下import ...
2018-05-24 08:28:44
1339
转载 Es集群踏坑之路
转载:https://www.cnblogs.com/zlslch/p/6619108.html1:es集群脑裂问题(不要用外网ip,节点角色不要混用) 原因1:阿里云服务器,外网有时候不稳定。 解决方案:单独采购服务器,内网安装 原因2:master和node节点没有分开 解决方案: 分角色:master节点(三台),data节点(随着数据增加而增加),client(随着查询压...
2018-03-12 10:04:21
983
原创 Redis基本存储类型
存储的基本类型1.Stringredis 127.0.0.1:6379> SET name "runoob"OKredis 127.0.0.1:6379> GET name "runoob"2.Hashredis> HMSET myhash field1 "Hello" field2 "World""OK"redis> HGET myhash f
2018-03-07 09:07:09
604
原创 朴树贝叶斯文本分类
朴树贝叶斯文本分类前两个加载文件为特征分类文件,可以自己定义,例如:第一个文件是体育,第二个文件是新闻第三个文件是测试文件 自己定义 目前这个demo是二分类python3from numpy import *def textParse(bigString): # input is big string, # output is word list # 分词 i
2018-01-29 14:16:08
422
转载 转载收藏学习(spark)
SPARK的核心就是RDD,对SPARK的使用入门也就是对RDD的使用,对于JAVA的开发者,Spark的RDD对JAVA的API我表示很不能上手,单单看文档根本是没有办法理解每个API的作用的,所以每个SPARK的新手,最好按部就班直接学习scale,那才是一个高手的必经之路,但是由于项目急需使用,没有闲工夫去学习一门语言,只能从JAVA入门的同学,福利来了: 涵盖大部分RDD的常用AP
2018-01-02 15:56:58
221
原创 KNN近邻算法总结
K-近邻算法1.什么是K近邻算法K近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 2.分类结果的决定因素(1)K为近邻的对象个数,结果影响取决于K的值。(2)测试样本的准确
2017-11-29 09:16:08
723
原创 ES随机生成学生数据工具
version 2.4.1import java.io.IOException;import java.io.UnsupportedEncodingException;import java.net.InetAddress;import java.net.UnknownHostException;import java.util.ArrayList;import java.util.
2017-11-24 16:09:27
1390
原创 SVM算法
SVM是通过超平面将样本分为两类。在超平面确定的情况下,可以相对地表示点距离超平面的远近。对于两类分类问题,如果0">,则的类别被判定为1;否则判定为-1。所以如果0">,则认为的分类结果是正确的,否则是错误的。且的值越大,分类结果的确信度越大。反之亦然。所以样本点与超平面之间的函数间隔定义为但是该定义存在问题:即和同时缩小或放大M倍后,超平面并没有变化,但是函数间隔却变化了。
2017-11-23 10:05:49
305
原创 线性回归
线性回归(监督)(二维)基本公式y=ax+b计算步骤1) 首先读入学习的x与 y2) 通过python数学模型得到斜率,与截距;3) 然后通过测试数据计算yDemo version python2import pandas as pdfrom io import StringIOfrom sklearn import linear_model
2017-11-23 09:27:36
269
原创 K近邻算法
K-近邻算法(监督)K为邻近的对象个数,结果影响取决于K的值。运用算法为距离算法,计算测试点到K个对象(每个对象的距离)计算步骤1)计算测试数据与各个训练数据之间的距离;2)按照距离的递增关系进行排序;3)选取距离最小的K个点;4)确定前K个点所在类别的出现频率;5)返回前K个点中出现频率最高的类别作为测试数据的预测分类。Demo version pyt
2017-11-22 13:41:37
220
原创 Spark杂记
Spark Java Api查询地址:http://spark.apache.org/docs/latest/api/java/index.html
2017-11-10 10:48:11
164
原创 CentOS免密登录设置
需求:学习hadoop 单机免密登录shellssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa会在/hadoop/home下生成id_dsa id_dsa.pub 这连个文件然后进行[hadoop@SOC-15 ~]$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys[hadoop@SOC-15
2017-11-10 10:22:40
1055
原创 Flume自定义SyslogSink
需求:收集客户端app应用日志,发送到其他代理agent上514syslog端口进行日志收集采样。技术组件 :flume-ng版本:flume1.7其他:由于flume本身默认没有syslog的sink,只有syslog的source,所以我们可以自己定义syslog sink测试syslog的javaDemo,功能实现ip校验,发送多条syslog日志 ,直接java -jar运
2017-11-09 14:13:27
1830
原创 Flume整体汇总
Flume SourceSource类型说明Avro Source支持Avro协议(实际上是Avro RPC),内置支持Thrift Source支持Thrift协议,内置支持Exec Source基于Unix的command在标准输出上生产数据JMS Source从JMS系
2017-11-09 10:36:09
361
原创 Flume启动命令
启动报错log4j:WARN No appenders could be found for logger (org.apache.flume.lifecycle.LifecycleSupervisor).log4j:WARN Please initialize the log4j system properly.log4j:WARN See http://logging.apache.o
2017-11-09 09:07:28
1176
linux ftp shell ftp-0.17-54.el6.x86_64.rpm
2019-04-15
es2.4.1客户端连接修正
2017-09-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人