
大数据与人工智能
文章平均质量分 52
大数据与人工智能
「已注销」
这个作者很懒,什么都没留下…
展开
-
Kettle(PDI)中使用执行SQL脚本控件
说明执行SQL脚本控件是执行一段脚本的,没有返回值。控件说明控件配置说明语句可以使用?或者${NAME}形式想要使用上一个的变量,必须勾选执行每一行使用变量必须勾选变量替换不勾选Bind Parameters,如果是字符串,需要加引号,如'?'Quote Strings会给变量加引号场景此控件一般用来执行更新、删除...原创 2021-06-21 18:33:50 · 1309 阅读 · 0 评论 -
VMware Workstation安装Linux并且实现NAT网络服务
安装VMware Workstation略,下载安装即可。创建Linux虚拟机首先下载好镜像CentOS-7-x86_64-Minimal-2009.iso然后按照步骤一步一步创建即可,如图选择版本和保存的位置后续可以调整硬件配置然后开机安装即可。配置网络这是最重要。在VMware Workstation中,默认有3个虚拟交换机,分别是VMnet0(使用桥接网络)、VMnet1(仅主机网络)和VMnet8(NAT网络)。在物理机的网络连接中找到物理机的适配器,右键点击属性,选择原创 2021-06-17 17:51:06 · 241 阅读 · 1 评论 -
pdi(kettle)中使用switch/case进行数据过滤
说明switch/case不是编程里的分支定义,而是一种数据过滤方式。需求一张学生数据,需要使用pdi处理出男生和女生的数据信息转换excel输入点击浏览后,再增加选择工作表,点击获取工作表选择字段,点击获取头部字段添加switch/case控件按照上面的信息填写输出按照上面的填写,女生数据也是如此,只是文件名更新一下。结果...原创 2021-06-11 14:16:34 · 513 阅读 · 2 评论 -
Kettle(PDI)中在job中循环使用上一个转换的结果
需求一个转换获取了一组数据,后续转换需要根据此转换的每一行进行后续操作。示例转换1此抓换提供了一组数据元数据数据转换2此转换需要循环换取上一个转换的数据数据获取字段定制文件JOBJavaScriptvar prevRow=previous_result.getRows();if (prevRow == null &&(prevRow.size()=0)){ false;}else{ parent_job.setVariable原创 2021-06-11 11:49:31 · 760 阅读 · 0 评论 -
Kettle(PDI)-一款ETL工具的使用教程(2)
数据库连接使用JNDI为什么要用JNDI?简单说,属于配置式,可以通用。路径:data-integration\simple-jndi\jdbc.properties基本格式live_logging_info/type=javax.sql.DataSourcelive_logging_info/driver=org.postgresql.Driverlive_logging_info/url=jdbc:postgresql://localhost:5432/hibernate?search原创 2021-06-04 10:51:00 · 331 阅读 · 0 评论 -
Kettle(PDI)-一款ETL工具的使用教程(1)
什么是ETLETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。什么是Kettle(PDI)Kettle最早是一个开源的ETL工具,全称为KDE Extraction, Transportation, Transformation and Loading Environment。在2006年,Pentaho公司收购了Kettl原创 2021-06-03 11:54:41 · 874 阅读 · 0 评论 -
Elasticsearch使用_snapshot进行备份和迁移
说明现在需要将Elasticsearch的数据迁移到新的服务上。单机使用官方的API完成集群使用Logstash备份操作查看旧版本的索引信息GET _cat/indices可以把kibana的索引排除掉。首先需要配置下路径,我的是在docker中完成的,注意先创建文件夹,权限也要修改docker exec -it elasticsearch bashmkdir /opt/backupchown elasticsearch:root /opt/backupvi /usr原创 2021-02-02 17:11:26 · 704 阅读 · 1 评论 -
SpringBoot2.x中使用Elasticsearch 7.x
依赖和配置<!-- elasticsearch --><dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-elasticsearch</artifactId></dependency>说明:以上也可以自行替换elasticsearch官方jar包版本,这里只是图个方原创 2020-11-24 15:44:01 · 542 阅读 · 0 评论 -
Nginx 配置Kibana和Elasticsearch转发和认证
前言默认的,kibana地址端口为5601,elasticsearch地址端口为9200,有时候不希望展示端口信息。这个时候可以使用nginx完成转发。配置Kibana首先需要修改kibana的配置文件kibana.yml添加如下信息server.basePath: "/kibana"注意:空格然后添加location location /kibana/ { auth_basic "kibana"; auth_basic_user_file /etc/nginx/pass_fi原创 2020-10-29 21:05:58 · 869 阅读 · 0 评论 -
Elasticsearch搜索引擎优化指南之分词优化
match查询优化我们知道match是Elasticsearch中的模糊搜索,因为match进行搜索的时候,会先进行分词拆分,拆完后,再来匹配。优化项目1词条:一种新型桑茶的制作方法当我们查询“桑茶” 时候,这个词条会出现在第一个,但后面还是出现其词条,现在想优化为只显示此词条。{ "code": 0, "data": { "count": 2, "data": [ { "score": 13.915859, "ad": "20原创 2020-07-14 10:53:02 · 883 阅读 · 0 评论 -
windows安装elasticsearch-7.7.0和kibana-7.7.0
背景从官网下载对应的安装包,这里使用的版本是7.5.0elasticsearch-7.5.0Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。Elasticsearch用于云计算中,能...原创 2020-05-15 22:02:28 · 907 阅读 · 0 评论 -
如何在Docker中安装Elasticsearch7.6.2
安装docker你要安装完成docker,不再说明了。安装Elasticsearch注意:使用版本为 7.5.0,你可以选择其他版本拉取镜像docker pull elasticsearch:7.5.0启动容器docker run --restart=always -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" \...原创 2020-03-25 14:26:02 · 5703 阅读 · 3 评论 -
Logstash7.6.2实现mysql同步数据到elasticsearch(linux)
下载安装cd /opttar -zxvf logstash-7.4.0.tar.gzcd logstash-7.4.0/安装插件由于这里是从mysql同步数据到elasticsearch,所以需要安装jdbc的入插件和elasticsearch的出插件:logstash-input-jdbc、logstash-output-elasticsearchbin/logstash-plug...原创 2019-10-12 15:04:41 · 1851 阅读 · 0 评论 -
机器学习基础简介
机器学习的概念什么是机器学习机器学习(Machine Learning,ML)主要研究计算机系统对于特定任务的性能,逐步进行改善的算法和统计模型。通过输入海量训练数据对模型进行训练,使模型掌握数据所蕴含的qian潜在规律,进而对新输入的数据进行准确的分类或预测。机器学习过程简单地来说就是通过海量数据训练模型,提炼规律,进行新数据的预测。机器学习分类无监督学习无监督学习算法采用一组仅包含输入的数据,通过寻找数据中的内在结构进行样本点的分组和聚类。无监督学习的核心应用是统计学中的密度估计和聚类原创 2020-07-18 18:10:03 · 218 阅读 · 0 评论 -
机器学习的一元线性回归最小二乘法
最小二乘法简介最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。1推导过程求散点图...原创 2020-07-22 14:26:35 · 549 阅读 · 0 评论 -
如何在Anaconda安装TensorFlow
安装AnacondaAnaconda就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。Anaconda包含了conda、Python在内的超过180个科学包及其依赖项。如果你安装过了python环境,建议先卸载。内置了python无需再装python,下载地址:https://www.anaconda.com/products/individual直接安装即可,Linux系统直接运行sh文件,根据提示安装。在windows中打开cmd检测版本conda --versi原创 2020-07-16 15:23:07 · 841 阅读 · 0 评论 -
最新的pyspark 本地开发环境
前言已经有了大数据平台,如下:搭建本地开发环境首先准备好:开发工具:PyCharmPython3环境:Anaconda3以上不再说明。安装pysparkpip3 install pyspark原创 2021-03-19 15:02:45 · 207 阅读 · 0 评论 -
使用minio自行搭建oss系统,存储文件
前言你可以购买如阿里云、七牛云、腾讯云等oss产品,也可以在内部网络搭建。minio网站:https://docs.min.io/cn/MinIO 是一个基于Apache License v2.0开源协议的对象存储服务。它兼容亚马逊S3云存储服务接口,非常适合于存储大容量非结构化的数据,例如图片、视频、日志文件、备份数据和容器/虚拟机镜像等,而一个对象文件可以是任意大小,从几kb到最大5T不等。MinIO是一个非常轻量的服务,可以很简单的和其他应用的结合,类似 NodeJS, Redis 或者 M原创 2021-01-12 15:55:36 · 5675 阅读 · 1 评论 -
大数据Kafka+Spark实时处理数据的解决方案
说明本项目利用Kafka和Spark实现一个实时处理解决方案,如下:工作过程(以文本相似度查询匹配为例):WEB接口向Kafka名为“match”的topic发送参数。Spark Streaming 读取topic,加载文本,进行相似度实时计算(需要一个文本是否变化的标志,防止频繁加载)Spark将处理后的数据发送给Kafka或者存入数据库中接口端查询即可。环境准备安装Hadoop,Spark安装Zookeeper和KafkaPython Spark的使用安装 PySpark原创 2020-09-09 15:45:39 · 777 阅读 · 0 评论 -
服务器中单机版本的hadoop环境安装
说明可以是虚拟机也可以是云服务器,内存不大。只安装hadoop,hive,spark,用于学习。其他组件如果服务器允许也可以安装。本机需要安装jdk同时,将环境的路径也配置下cd ~rpm -ivh jdk-8u261-linux-x64.rpmvi /etc/profileexport JAVA_HOME=/usr/java/jdk1.8.0_261-amd64export HADOOP_HOME=/user/share/bigdata/hadoop-3.2.1export HIVE原创 2020-12-06 22:27:33 · 158 阅读 · 1 评论 -
SpringBoot2.3.5以下版本使用Neo4j
简介安装过程省略,请参考https://blog.youkuaiyun.com/qq_15973399/article/details/106943427SpringBoot使用Neo4j依赖和配置<!-- neo4j --><dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-data-neo4j</ar原创 2020-11-24 16:01:17 · 1041 阅读 · 0 评论 -
大数据平台Ambari2.7.4+HDP3.1.4安装
Linux准备机器1 Ambari机器2 Hadoop1机器3 Hadoop2机器4 Hadoop3需要实现SSH互通,主机名修改,hosts添加,关闭安全子系统,安装JDK1.8等下载Ambari下载HDP所有包安装Ambari配置Ambari原创 2020-08-06 14:55:12 · 2618 阅读 · 8 评论 -
Windows环境搭建Spark开发环境
Linux安装请参考大数据环境搭建(六)之安装SparkWindows安装下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.0/解压后:添加环境变量Path追加打开cmd 输入 spark-shell 检测spark-submit测试首先你要用scala写一个helloworld程序,创建方式请参考:https://blog.youkuaiyun.com/qq_15973399/article/details/1原创 2020-08-05 11:43:52 · 381 阅读 · 0 评论 -
windows和linux安装和配置Scala环境
Scala官网地址:https://www.scala-lang.org/The Scala Programming LanguageScala combines object-oriented and functional programming in one concise, high-level language. Scala’s static types help avoid bugs in complex applications, and its JVM and JavaScript ru原创 2020-07-27 11:05:57 · 211 阅读 · 0 评论 -
大数据环境搭建(六)之安装Spark
下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.0/local 模式解压tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz mv spark-3.0.0-bin-hadoop3.2 spark-3.0.0测试安装bin/spark-submit --class org.apache.spark.examples.SparkPi --executor-memory 1G --total原创 2020-07-14 17:43:15 · 277 阅读 · 0 评论 -
记录一次大数据HBase问题的排查经过
背景最近的一次断电开关机后,网站的信息无法浏览了。代码查源我们代码会有连接的有以下的组件:Solr cloudMySQLOracleHBase一个一个检查,首先排除了MySQL和Oracle,不然我们都无法登录了。检查Solr登录solr admin的网站,查看节点是否全是绿色的。http://xxx:8983/solr/#/~cloud发现全部断线,虽然服务已经在运行,但是需要重启。# 1. 开启各个服务器上的zookeeper# 2. 关闭solr 后再重启/data/原创 2020-05-19 10:32:21 · 1376 阅读 · 0 评论 -
大数据环境搭建(四)之安装Hive
目录大数据环境搭建(一)之服务器环境准备大数据环境搭建(二)之安装Hadoop大数据环境搭建(三)之安装Zookeeper大数据环境搭建(四)之安装Hive大数据环境搭建(五)之安装HBase...原创 2020-04-20 14:53:41 · 324 阅读 · 0 评论 -
大数据环境搭建(五)之安装HBase
目录大数据环境搭建(一)之服务器环境准备大数据环境搭建(二)之安装Hadoop大数据环境搭建(三)之安装Zookeeper大数据环境搭建(四)之安装Hive大数据环境搭建(五)之安装HBase...原创 2020-04-20 09:54:43 · 210 阅读 · 0 评论 -
大数据环境搭建(三)之安装Zookeeper
目录大数据环境搭建(一)之服务器环境准备大数据环境搭建(二)之安装Hadoop大数据环境搭建(三)之安装Zookeeper大数据环境搭建(四)之安装Hive大数据环境搭建(五)之安装HBase...原创 2020-04-17 09:17:50 · 117 阅读 · 0 评论 -
大数据环境搭建(二)之安装Hadoop
目录大数据环境搭建(一)之服务器环境准备大数据环境搭建(二)之安装Hadoop大数据环境搭建(三)之安装Zookeeper大数据环境搭建(四)之安装Hive大数据环境搭建(五)之安装HBase...原创 2020-04-16 16:33:40 · 275 阅读 · 0 评论 -
大数据环境搭建(一)之服务器环境准备
目录大数据环境搭建(一)之服务器环境准备大数据环境搭建(二)之安装Hadoop大数据环境搭建(三)之安装Zookeeper大数据环境搭建(四)之安装Hive大数据环境搭建(五)之安装HBase集群规划我们选用3台服务器,规格如下:...原创 2020-04-15 17:47:03 · 816 阅读 · 0 评论 -
利用Spark算子来计算省份广告点击TOP3
1. 需求统计每个省份广告点击数量的TOP3样本数据:时间戳,省份id,城市id,用户id,广告id1516609143867 6 7 64 161516609143869 9 4 75 182. 实现分析(1)分割每一行数据,每一行的数据用空格分割split,需要的数据是省份id和广告id(2)将省份id和广告id和次数1组成键值对,通过算子map组合成((省份id,...原创 2019-05-03 13:06:36 · 1452 阅读 · 0 评论 -
Hive中rank()、row_number()函数的用法
1. 函数说明rank() 排序相同时会重复,总数不会变dense_rank() 排序相同时会重复,总数会减少row_number() 会根据顺序计算2. 操作案例2.1 数据准备孙悟空 语文 87孙悟空 数学 95孙悟空 英语 68唐僧 语文 94唐僧 数学 56唐僧 英语 84猪八戒 语文 64猪八戒 数学 86猪八戒 英语 84沙僧 语文 65沙...原创 2019-04-16 13:39:25 · 15882 阅读 · 0 评论 -
Hive窗口函数的运用
1. 相关函数说明over():指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变而变化current row:当前行n preceding:往前n行数据n following:往后n行数据unbounded:起点,unbounded preceding表示从前面的起点, unbounded following表示到后面的终点lag(col,n):往前第...原创 2019-04-15 20:36:43 · 1015 阅读 · 0 评论 -
Hadoop伪分布和全分布部署指南
Hadoop的部署伪分布部署在一个节点上启动不同的进程,模拟多节点Hadoop配置修改hadoop-env.sh# 修改JAVA_HOME 地址export JAVA_HOME=/opt/module/jdk1.8.0_201修改 core-site.xml<configuration> <!-- 修改Hadoop的NameNode的地址 -->...原创 2019-04-22 15:58:56 · 1300 阅读 · 0 评论 -
通过Shell和Flume采集每日的访问日志到HDFS
1. 需求说明用Shell脚本和Flume采集Nginx日志信息,按日期分割上传到HDFS上,供后续清洗,分析使用。2. 实现过程2.1 Shell方式分析:实现采集日志,需要在特定时间,如0点执行脚本将Nginx日志分离,重新生成新的日志,将过去的日志修改名字后上传到HDFS上。#! /bin/bash# Nginx 目录NGINX_HOME=/usr/local/ng...原创 2019-04-25 19:38:31 · 529 阅读 · 0 评论 -
Hive查询:行转列和列转行使用场景说明
1. 引言对于复杂的数据,存在复杂的数据类型,面对复杂的需求,可以考虑使用行转列,或者列转行的操作1.1 行转列说明CONCAT(string A/col, string B/col…):返回输入字符串连接后的结果,支持任意个输入字符串;CONCAT_WS(separator, str1, str2,...):它是一个特殊形式的 CONCAT()。第一个参数剩余参数间的分隔符。分隔...原创 2019-04-13 15:43:37 · 1345 阅读 · 0 评论 -
Hive实战:影音视频网站各种TopN指标分析
1. 项目分析谷粒影音Hive实战项目,上篇。本篇主要准备环境和数据,下篇针对几个需求进行分析和操作。1.1 数据结构(1)视频表 字段 备注 详细描述 video id 视频唯一id 11位字符串 uploader 视频上...原创 2019-04-12 22:31:44 · 1344 阅读 · 1 评论 -
Hive中的自定义函数UDF的实现过程说明记录
1. 引言近期在学习大数据的过程中,使用了CDH版本的Hadoop、Hive等,将编写Hive自定义函数UDF的过程记下来,以备查看和参考。2. 环境准备开发环境:JDK1.8、IEDA 2018.3.5操作环境:安装了CDH版本的大数据组件的Linux系统(虚拟机),包括了Hadoop、Hive、Sqoop3. 实现过程3.1 搭建IDEA开发环境(1)贴上pom.x...原创 2019-04-11 09:34:50 · 1189 阅读 · 0 评论 -
Spark Streaming使用Kafka数据源进行计算
1. 说明Spark Streaming用于流式数据的处理。在工程中需要引入 Maven 工件spark- streaming-kafka_2.11 来使用它。包内提供的 KafkaUtils 对象可以在StreamingContext 和 JavaStreamingContext 中以你的Kafka 消息创建出 DStream。 <dependency>...原创 2019-05-04 15:43:16 · 682 阅读 · 0 评论