- 博客(100)
- 资源 (2)
- 收藏
- 关注
原创 第四章 搜索功能
在ES中,通过_source子句可以设定返回结果的字段。_source指向一个JSON数组,数组中的元素是希望返回的字段名称。给前端传递搜索匹配结果的文档条数,即需要对搜索结果进行计数。ES提供了_count API功能,在该API中,用户提供query子句用于结果匹配,ES会返回匹配的文档条数。在默认情况下,用户最多可以取得10 000个文档,即from为0时,size参数最大为10 000,如果请求超过该值,ES返回报错;
2023-04-05 11:17:03
510
原创 第三章 ES基础操作
使用ES构建搜索引擎的第一步是创建索引。在创建索引时,可以按照实际需求对索引进行主分片和副分片设置。ES创建索引的请求类型为PUT,其请求形式如下变量index_name就是创建的目标索引名称;可以在settings子句内部填写索引相关的设置项,如主分片个数和副分片个数等(主分片个数使用的是系统默认值(默认值为5),并且没有使用副分片个数(默认值为0));可以在mappings子句内部填写数据组织结构,即数据映射。在有些场景下,某个索引暂时不使用,但是后期可能又会使用,这里的使用是指数据写入和数据搜索。
2023-04-05 11:13:01
991
原创 第一章 docker安装ElasticSearch7
query子句可以按照需求填充查询项。# 配置es的集群名称,es会自动发现在同一网段下的es,如果在同一网段下有多个集群,就可以用这个属性来区分不同的集群。# 配置es的集群名称,es会自动发现在同一网段下的es,如果在同一网段下有多个集群,就可以用这个属性来区分不同的集群。"_id" : "001", //命中文档ID。# 设置集群中master节点的初始列表,可以通过这些节点来自动发现新加入集群的节点。"_index" : "hotol", //命中文档所在索引。
2023-04-05 11:06:13
1063
转载 idea+maven
步骤一:首先先创建一个project,上次我说过了创建一个project就是一个工作空间,在这里就是创建一个maven的工作空间步骤二:你要选择maven然后按照下面图片 的指示操作就可以了---》最后点击next按钮步骤三:如图: 步骤四:这里如何设置自己的maven的本地仓库的位置,是通过修改settings.xml中的文件的位置放置问题,还有你要加上阿里巴巴的仓库...
2018-11-07 23:43:34
1192
原创 崔庆才《Python3网络爬虫开发实战教程》的学习笔记系列 第一章 基本库的使用
1 python3的urllib库包含4个模块request模块: 用于模块发送HTTP请求;error模块: 异常处理模块,主要用于保证程序不会意外中断;parse模块: 工具模块,包含了url处理方法;robotparse模块: 用于识别网站的robots.xml文件,验证哪些网站不能爬取;2 request模块2.1 发送请求...
2018-08-25 09:18:45
2103
转载 spark电影受众系统
数据准备1 下载数据链接:https://pan.baidu.com/s/165de8xKYl0QBq8lGzYGW6g 密码:brb9链接:https://pan.baidu.com/s/1-jxcAYoybNV5TYL7xbzi9A 密码:id592 上传hdfs[root@node1 data]# hdfs dfs -put ml-1m/ input[ro...
2018-08-05 22:22:46
804
原创 多线程
1、wait()、notify/notifyAll() 方法是Object的本地final方法,无法被重写。2、wait()使当前线程阻塞,前提是 必须先获得锁,一般配合synchronized 关键字使用,即,一般在synchronized 同步代码块里使用 wait()、notify/notifyAll() 方法。3、 由于 wait()、notify/notifyAll() 在synch...
2018-08-02 00:34:13
182
转载 NIO部分
内容:1. Java NIO 简介2. Java NIO 与 IO 的主要区别3. 缓冲区(Buffer)和通道(Channel)4. 文件通道(FileChannel)5. NIO 的非阻塞式网络通信 选择器(Selector) 1 Java NIO 简介Java NIO(New IO) 是从Java 1.4版本开始引入的一个新的IO API,可以替代...
2018-07-30 19:54:18
208
转载 juc部分
juc简介在 Java 5.0 提供了 java.util.concurrent (简称JUC )包,在此包中增加了在并发编程中很常用的实用工具类, 用于定义类似于线程的自定义子系统,包括线程池、异步 IO 和轻量级任务框架。提供可调的、灵活的线程池。还提供了设计用于多线程上下文中的 Collection 实现等。 1-volatile 关键字内存可见性(Memory Visib...
2018-07-30 19:32:08
399
原创 第二篇 机器学习numpy
1 机器学习应用场景机器学习广泛用于模式识别、计算机视觉、数据挖掘、语音识别、统计学习、自然语言处理等领域;2 机器学习一般步骤 训练样本->特征提取->学习函数->预测分析3 python常用的机器学习库numpy:科学计算库pandas:数据分析处理库matplotlib:数据可视化库scikit-learn:机器学习库4 开发环境准备...
2018-07-28 14:41:08
411
转载 一 机器学习分类
1 基本概念机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。 图1 机器学习的应用领域二 机器学习的基本...
2018-07-23 21:01:05
898
原创 maven ssm结合制作JFreeChart
1 创建maven项目,编写pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaL...
2018-07-12 22:27:37
877
原创 sparksql在Mysql中生成表
1 提供比较全的pom.xml<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <spark.version>2.2.0</spark.version> <hadoop.versio...
2018-07-12 20:28:01
1917
原创 Maven构建SparkStreaming+ Kafka消费者代码, 在Spark集群上运行
1 编写pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="
2018-07-12 17:03:13
3748
原创 logs滚动导入到flume+kafka
1 centeros7时间同步删除本地时区#rm -rf /etc/localtime设置时区cp /usr/share/zoneinfo/Asia/Shanghai/etc/localtime安装ntp,同步时间yum install -y ntp同步时间ntpdate time.nist.gov格式化查看时间 date "+%Y/%m/%d %H:%M:%S"2 使用cron执行任务计划...
2018-07-11 21:38:00
248
原创 flume+kafka
大数据平台每天会产生大量的日志,处理这些日志需要特定的日志系统。一般而言,这些系统需要具有以下特征:构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水平扩展。为此建议将日志采集分析系统分为如下几个模块:数据采集模块:负责从各节点上实时采集数据,建议选用Flume-NG来实现...
2018-07-11 02:24:38
640
转载 Kafka集群搭建
Kafka集群搭建Kafka初识Kafka使用背景在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题:我们想分析下用户行为(pageviews),以便我们设计出更好的广告位我想对用户的搜索关键词进行统计,分析出当前的流行趋势有些数据,存储数据库浪费,直接存储硬盘效率又低这些场景都有一个共同点:数据是由上游模块产生,上游模块,使用上游模块的数据计算、统计、分析,这个时候就可以...
2018-07-11 02:03:05
3282
原创 centeros7上安装nginx
安装所需环境Nginx 是 C语言 开发,建议在 Linux 上运行,当然,也可以安装 Windows 版本,本篇则使用 CentOS 7 作为安装环境。一. gcc 安装安装 nginx 需要先将官网下载的源码进行编译,编译依赖 gcc 环境,如果没有 gcc 环境,则需要安装:yum install gcc-c++二. PCRE pcre-devel 安装PCRE(Perl Compatibl...
2018-07-10 21:13:20
3651
2
转载 nginx访问日志
nginx访问日志查看nginx.conf文件vim /usr/local/nginx/conf/nginx.conf中间有一行是定义log的格式log_format combined_realip '$remote_addr $http_x_forwarded_for [$time_local]' ' $host "$request_uri" $status' ' "$http_...
2018-07-10 00:14:16
12664
1
原创 ngix反向代理
一、代理服务器 1、什么是代理服务器 代理服务器,客户机在发送请求时,不会直接发送给目的主机,而是先发送给代理服务器,代理服务接受客户机请求之后,再向主机发出,并接收目的主机返回的数据,存放在代理服务器的硬盘中,再发送给客户机。 2、为什么要使用代理服务器 1)提高访问速度 由于目标主机返回的数据会存放在代理服务器的硬盘中,因此下一次客户再访问相同的站点数据时,会直接从代理服务器的硬盘中读取,起...
2018-07-10 00:08:47
243
原创 分析项目
1、大数据集群环境的搭建CentOS 6.8、hadoop-2.7.3、hive-0.13.1zookeeper-3.4.10kafka_2.10-0.10.2.0、flume-ng-1.7.0日志采集流程、Spark 1.6.32、企业级大数据项目的架构搭建Java、配置管理组件、JDBC辅助组件(内置数据库连接池)、Domain与DAO模型scala:只适合用于编写一些比较纯粹的一些数据处理程...
2018-07-08 23:03:08
238
原创 spark streaming
1 spark streaming基本概念Spark streaming是Spark核心API的一个扩展,它对实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据,也可以通过由高阶函数map、reduce、join、window等组成的复杂算法计算出数据。最后,处理后的数据可以推送到文件系统、数据库、...
2018-07-08 20:58:11
330
原创 spark sql
1 Spark SQL简介Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame的编程抽象,并且可以充当分布式SQL查询引擎。2 Spark SQL的特性集成无缝地将SQL查询与Spark程序混合。 Spark SQL允许您将结构化数据作为Spark中的分布式数据集(RDD)进行查询,在Python,Scala和Java中集成了API。这种紧密的集...
2018-07-05 22:20:19
718
原创 Spark分区
Spark分区原理分析介绍分区是指如何把RDD分布在spark集群的各个节点的操作。以及一个RDD能够分多少个分区。一个分区是大型分布式数据集的逻辑块。那么思考一下:分区数如何映射到spark的任务数?如何验证?分区和任务如何对应到本地的数据?Spark使用分区来管理数据,这些分区有助于并行化分布式数据处理,并以最少的网络流量在executors之间发送数据。默认情况下,Spark尝试从靠近它的节...
2018-07-04 17:22:57
1154
1
原创 spark文件读写
1 普通textFile读写读取hdfs上的文本文件scala>val rdd1=sc.textFile("hdfs://hadoop1:9000/myone/input/a.txt")进行相关处理,按照文件中每行进行处理scala> val rdd2=rdd1.flatMap(line=>line.split("\\s+")).map(d=>(d,1)向hdfs写入tex...
2018-07-04 15:05:13
1116
原创 spark-scala程序
1 pom.xml<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="ht
2018-07-04 00:01:39
407
原创 implicit的用法
掌握implicit的用法是阅读spark源码的基础,也是学习scala其它的开源框架的关键,implicit 可分为:隐式参数隐式转换类型隐式调用函数1.隐式参数当我们在定义方法时,可以把最后一个参数列表标记为implicit,表示该组参数是隐式参数。一个方法只会有一个隐式参数列表,置于方法的最后一个参数列表。如果方法有多个隐式参数,只需一个implicit修饰即可。 当调用包含隐式参数的方法是...
2018-07-03 22:29:50
3618
1
原创 Scala 强大的集合数据操作
val data="hello tom hello jerry"var das=data.split("\\s+")var li=das.toListvar vli=List.fill(li.size)(1)var mm=li zip vlivar k=mm.groupBy(_._1)for((x,y)<-k) println(x+","+y.size)一、常用操作符(操作...
2018-06-28 21:32:36
459
原创 快学scala笔记第六章 包和继承
1 scala中包的嵌套package com{ package demo{ class emp(xname:String) { println("你的姓名:"+xname) } }}在一个文档中可以多个包2 访问上层包对象中的方法package com{ package demo{ object emp { def info:Unit={ ...
2018-06-27 14:51:30
245
原创 快学scala笔记第十二章 高阶函数
1 指向函数的变量 注意:ceil 后的_表示该函数的所有参数 val xfunc=scala.math.ceil _ val r=xfunc(4.5)2
2018-06-26 22:04:37
175
原创 快学scala笔记第五章 类
1 scala中简单类的定义和调用class One { private var age:Int=8 def say(x:Int)=this.age=x def hello=println("age:"+age)}注意:scala中没有参数的函数或方法,调用时可以不使用() ,但是hello方法定义时没有加入(),所以调用时也不能使用(); def main(args: Array[Str...
2018-06-25 12:34:29
201
原创 hive和hbase结合
摘要Hive提供了与HBase的集成,使得能够在HBase表上使用HQL语句进行查询 插入操作以及进行Join和Union等复杂查询使用1.从Hive中创建HBase表使用HQL语句创建一个指向HBase的Hive表CREATE TABLE hbase_table_1(key int, value string) //Hive中的表名hbase_table_1STORED BY 'org.apa...
2018-06-24 20:05:16
332
1
原创 快学scala笔记第三章 数组
1 定义定长数组var x=new Array[Int](8) x(6)=6 println(x(6)) for(i<-x)print(i+" ")2
2018-06-23 12:09:48
175
转载 结构体对齐
一、概念 对齐跟数据在内存中的位置有关。如果一个变量的内存地址正好位于它长度的整数倍,他就被称做自然对齐。比如在32位cpu下,假设一个整型变量的地址为0x00000004,那它就是自然对齐的。 二、为什么要字节对齐 需要字节对齐的根本原因在于CPU访问数据的效率问题。假设上面整型变量的地址不是自然对齐,比如为0x00000002,则CPU如果取它的值的话需要访问两次...
2018-06-21 23:09:27
262
转载 结构体
1;关于c语言结构体的引入; 在前面已经介绍了整形(int,long,….),浮点型(flaot,double),字符型(char),还介绍了数组(存储一组具有相同类型的数据),字符串。但是在实际问题中只有这些数据类型是不够的,有时候我们需要其中的几种一起来修饰某个变量,例如一个学生的信息就需要学号(字符串),姓名(字符串),年龄(整形)等等,这些数据类型都不同但是他们又是表示一个整体,要存在联系...
2018-06-21 23:03:00
515
转载 指针与数组部分
概念解释数组指针:首先它是一个指针,它指向一个数组,即指向数组的指针;在32 位系统下永远是占4 个字节,至于它指向的数组占多少字节,不知道。数组指针指向的是数组中的一个具体元素,而不是整个数组,所以数组指针的类型和数组元素的类型有关。 指针数组:首先它是一个数组,数组的元素都是指针,数组占多少个字节由数组本身决定。它是“储存指针的数组”的简称,即每个元素都是指针。 二级指针 : 如果一个指针指向...
2018-06-21 22:58:45
186
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人