
整理
不想当和尚
这个作者很懒,什么都没留下…
展开
-
日志数据操作--json转成表格式
日志处理流程,json转成表类型格式。日志数据前有一时间戳,后面才是json格式数据。导入SPARKSQL所需要的包scala> import spark.implicits._import spark.implicits._scala> import org.apache.spark.sql.functions._import org.apache.spark.sql.functions._scala> import org.apache.spark.sql._impor原创 2020-10-15 18:42:20 · 329 阅读 · 0 评论 -
spark算子、DF、hive、hbase操作
–使用rdd和sparkSQL业务查询sparkSQL创建datafrom:1.数据准备(10 分)请在 HDFS 中创建目录/app/data/exam,并将 meituan_waimai_meishi.csv 文件传到该目录。–通过 HDFS 命令查询出文档有多少行数据。hdfs dfs -cat /app/data/exam/meituan_waimai_meishi.csv | wc -l2.使用 Spark,加载 HDFS 文件系统 meituan_waimai_meishi.csv原创 2020-10-15 08:51:14 · 477 阅读 · 0 评论 -
算法大悲赋之KNN算法
一、描述首先,KNN算法是一个初级算吧,书面解释是: KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别,其中K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。太繁琐晦涩了,所以我用KNN算法的实际事例来分部解释。二、秘籍部分算法是用Python开发的,首先导包,不解释#导入原创 2020-09-15 19:30:07 · 204 阅读 · 0 评论 -
flume常用操作conf代码
一、数据写入到kafka中event_attendees.sources = event_attendeesSourceevent_attendees.channels = event_attendeesChannelevent_attendees.sinks = event_attendeesSinkevent_attendees.sources.event_attendeesSource.type = spooldirevent_attendees.sources.event_attende原创 2020-08-24 18:47:15 · 165 阅读 · 0 评论 -
将表格数据从kafka提取出,编辑后再存入kafka。
一、功能需求将表格去掉表头,分成map型数据二、 代码import org.apache.kafka.common.serialization.Serdes;import org.apache.kafka.streams.*;import org.apache.kafka.streams.kstream.KStream;import java.util.ArrayList;import java.util.List;import java.util.Properties;import j原创 2020-08-24 18:32:12 · 367 阅读 · 0 评论 -
Kafka之Proreducer和Consumer(java编写)
Proreducerimport org.apache.kafka.clients.producer.KafkaProducer;import org.apache.kafka.clients.producer.ProducerConfig;import org.apache.kafka.clients.producer.ProducerRecord;import org.apache.kafka.common.serialization.StringSerializer;import java原创 2020-08-18 18:50:46 · 205 阅读 · 1 评论 -
Spark处理日志文件事例
import org.apache.commons.lang.StringUtilsimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.types.{StringType, StructField, StructType}import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}object LogWork extends App{ //todo 1、创原创 2020-08-17 17:13:36 · 250 阅读 · 0 评论 -
Flume日志收集系统的常用命令和常用操作
一、拦截器java写完,打包放入flume的lib文件夹下。package com.nj;import org.apache.flume.Context;import org.apache.flume.Event;import org.apache.flume.interceptor.Interceptor;import java.util.ArrayList;import java.util.List;import java.util.Map;public class Interc原创 2020-08-17 17:11:56 · 319 阅读 · 0 评论 -
Scala函数大全整理,最易理解
注:aggregate、collect、collectFirst、flatMap、fold++描述:c=a++b。合并集合,并返回一个新的序列,新数组包含两个集合的内容 val a=Array(12,13,14,15,16) val b=Array(9,8,7,6,5) val c=a++b println(c.mkString("|")) //12|13|14|15|16|9|8|7|6|5++:描述:c=a++:b。同上,c序列的类型有冒号右边的b决定 va原创 2020-07-31 14:14:39 · 644 阅读 · 0 评论 -
hive重点函数整理
注:以下范列中数据为举例假设,不是实时数据。一、数字函数1、round(double a)描述:返回 double 类型的整数值部分 (遵循四舍五入)select round(3.1415926); --> 3select round(3.5); --> 42、round(double a,int b)描述:返回指定位数 b 的 double 类型select round(3.1415926, 4); --> 3.14163、floor(double a)描述:返回原创 2020-07-20 15:52:12 · 169 阅读 · 0 评论 -
hive-UDF函数使用方法范例整理
一、hive函数的使用|返回值|函数|事例| string | concat(string|binary A, string|binary B…) | ||–|--|–|| | |二、hive自定义函数三、hive性能优化原创 2020-07-16 15:02:19 · 271 阅读 · 0 评论 -
hadoop高可用集群个人搭建整理
一、安装前的配置要求hadoop高可用集群规划,请保证 Hadoop 完全分布式和 ZooKeeper 完全分布式环境已经安装完成。二、开始安装我这边是用了三台虚拟机,主机名分别是hadoop01,hadoop02,hadoop03。我是设置hadoop01是主机,hadoop02是副主机。更改hadoop下的文件配置。打开文件:vi core-site.xml<configuration> <property> <name>fs.defaul原创 2020-07-06 19:14:58 · 155 阅读 · 0 评论 -
集合框架内容整理
集合框架与泛型如果并不知道程序运行时会需要多少对象,或者需要更复杂方式存储对象——可以使用Java集合框架集合Collection的特点:无序,可重复列表List的特点:有序(插入顺序),可重复ArrayList:是List的一个实现类,底层由数组构成实现了长度可变的数组,在内存中分配连续的空间,遍历元素和随机访问元素的效率比较高扩容数组时,新数组长度是原来的1.5倍增:add(值),addAll(集合对象)删:remove(下标),remove(值),removeAll(集合对象)改;s原创 2020-07-01 20:01:36 · 148 阅读 · 0 评论 -
Java、数据库、大数据。。面试题目整理(不断更新)!!!
一、Java部分选择题部分1.以下关于 abstract 关键字的说法,正确的是(D)。A.abstract 可以与 final 并列修饰同一个类。B.abstract 类中不可以有 private 的成员。C.abstract 类中必须全部是 abstract 方法。D.abstract 方法必须在 abstract 类或接口中。2.以下方法,(B)不是对 add 方法的重载。//重载和方法返回值有关联,和返回值无关系。public class Test{public void add(原创 2020-07-01 19:39:18 · 412 阅读 · 0 评论 -
MapReduce原理及初步编程
什么是MapReduceMapReduce是一个分布式计算框架:将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务。起源于Google;适用于大规模数据处理场景。每个节点处理存储在该节点的数据。每个job包含map和reduce两部分。MapReduce的设计思想分而治之简化并行计算的编程模型构建抽象模型:Map和Reduce开发人员专注于实现Mapper和Reducer函数隐藏系统层细节,开发人员专注于业务逻辑实现。MapReduce特点优点:易于编程,可扩展性,高容错性,高吞原创 2020-07-01 18:46:25 · 181 阅读 · 0 评论 -
zookeeper,hbase,hive配置搭建。
一.ZooKeeper进入zookeeper文件夹下,配置全局环境变量: vi /etc/profile,在打开的文件中添加如下两行:export ZK_HOME=/opt/zookeeperexport PATH=$PATH:$ZK_HOME/bin输入: source /etc/profile,使其生效输入: cd /opt/zookeeper/conf/进入配置文件的目录创建该文件: vi zoo.cfg插入内容:# The number of milliseconds of eac原创 2020-06-28 17:22:49 · 365 阅读 · 0 评论 -
Hadoop和集群配置
一、Hadoop配置虚拟机配好连上moba后:生成秘钥: ssh-keygen -t rsa -P “”cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys开启远程免密登录配置ssh-copy-id -i .ssh/id_rsa.pub -p22 root@192.168.56.122远程登录[ssh -p 22 root@192.168.56.122往远程服务器拷贝文件 注:没有建立集群的话,下一步不需要执行操作拷贝。原创 2020-06-28 15:54:25 · 321 阅读 · 0 评论 -
ELK集群的搭建和logstash实例
ELK集群一、复制虚拟机、修改主机名和主机列表1.网络地址(1)输入:vi /etc/sysconfig/network-script/ifcfg-enp0s3 修改网络ip地址2.主机名(1)hostnamectl set-hostname bigdata01(2)输入命令vi /etc/hostname进入内容,也可以修改为bigdata01(3)重启虚拟机: reboot(4连接moba3.主机列表(1)vi /etc/hosts 内容增加 主机的i原创 2020-06-22 18:27:23 · 271 阅读 · 0 评论 -
ELK的详细安装配置,照着复制粘贴即可
一、ES安装前的准备(elk安装包版本要求一致)elasticsearch-6.2.2.tar.gzelasticsearch-head-master.zipkibana-6.2.2-linux-x86_64.tar.gzlogstash-6.2.2.tar.gznode-v8.9.1-linux-x64.tar.gz二、ELK的安装1.把下载好的安装包,再加上jdk包,拖拽到/software目录中2.输入:yum install -y unzip 下载解压缩工具3.原创 2020-06-18 17:34:26 · 348 阅读 · 0 评论 -
Linux软件等安装。
安装之前的准备工作登录Linux系统;在Linux界面关闭防火墙,代码:输入systemctl restart network 重启网络输入systemctl stop firewalld 关闭防火墙输入systemctl disable firewalld 禁用防火墙使用moba连接虚拟机,若连接不上重启网络服务service network restart 这里事先提供一些代码用法介绍:tar -zvxf 包名 --解压安装软件包rpm -ivh 软件包路径 --直接安装软件包yu原创 2020-06-17 16:23:08 · 109 阅读 · 0 评论