- 博客(79)
- 收藏
- 关注
原创 企业微信自动登录
需要在application.xml或者bootstrap.yml中配置,配置格式为。OauthConfig(token校验配置类)
2025-01-14 15:59:33
207
原创 手动nginx平滑升级
如果误删3956 master进程,执行 nginx -s reload 会报错 nginx: [alert] kill(3956, 1) failed (3: No such process)nginx。这样我们需要执行 pkill nginx 杀死所有进程,再执行 ./nginx 命令 即可正常启动。可以执行 /usr/local/nginx/sbin/nginx -V 查看。如果直接输入./configure 会安装到默认命令 后面一般是旧版本路径。最后可以看到已经成功替换。
2024-10-10 16:58:17
458
原创 前端初识之HTML5知识
</tr> 标签用于定义表格中的行.<td> </td>指表格数据(table data),即数据单元格的内容,用于定义表格中的单元格,必须嵌套在<tr></ul> 中只能嵌套 <li></li>,直接在 <ul></ol>中只能嵌套<li></li>,直接在<ol>
2024-09-04 17:33:57
736
原创 根据用户名称实现单点登录
修改SecurityConfig 放行我们的请求登录路径 并把自定义认证加进来。注意:LoginBody新增变量accessToken。添加IAuthenticationProvider。Controller层。
2024-03-04 15:37:46
1338
原创 使用springboot框架和若依开发中常用注解
1、@SpringBootApplication这个注解是SpringBoot项目的基石,创建SpringBoot项目之后会默认在主类加上。@SpringBootApplicationpublicclassStudyApplication{publicstaticvoidmain(String[]args){SpringApplication.run(StudyApplication.class,args);}}可以把@Sprin...
2021-12-13 14:02:36
2429
原创 小时级实时数据仓库构建方法及注意知识点
小时级实时数据仓库构建的开发流程 1、找到数据流(done) 2、将数据源进行有序化排序处理,模拟最真实的微博数据流的真实数据的生产过程。 3、接收微博数据流数据 4、转发到kafka集群 5、kafka集群的搭建与运维(done) 6、消费kafka形成小时级的微博数据文件 7、将小时级文件定期、自动化load到小时级微博数据分区表 小时级实时数据仓库构建的详细开发过程 1、找到数据流(done) 2、将数据源进行有序化排序处理,模拟最真实的微博数据流的真实数据的生产
2021-11-23 22:10:29
1787
原创 hbase
1、hadoop database的简称hbase是一个数据模型,属于hadoop生态系统的一部分,提供对海量数据的随机实时读/写访问。构建在hadoop之hdfs之上,分布式面向列的数据库参考谷歌的bigtable数据库设计,拥有hdfs的分块存储、冗余、容错的优良特性。完全开源、优秀的横向扩展性。2、hbase与hdfs对比说明HDFS:适于储存大文件的分布式文件系统 不支持快速单独记录查找,即顺序访问 批量任务处理,吞吐量高、时延实时性差...
2021-11-19 22:29:50
1873
原创 redis
性能 存储性能 计算性能 而我们一般说的高性能,默认是指计算性能。 集群的组织模式 1、主从备份集群 主和从节点数据是一样的。 相当于多了一个数据备份的保障。 多个人同时相同的事情,每人做了一次。 比如:mysql cluster,redis,ssdb等。 2、主从分布式集群 主和从节点数据是不一样的。 往往是主节点管理,从节点做具体工作。 比如hdfs,yarn,mapreduce,spark等。 3、去中心化分布
2021-11-18 21:00:45
13368
原创 Kafka进阶
Producer 负责生成消息,并把消息push到broker集群中。 该角色显式知道应该push到broker集群中的哪个或哪几个broker当中 Broker 负责接收生产者push过来的消息,存储到所在的机器文件中 ConsumerGroup 每个Consumer属于一个特定的Consumer Group。 一条消息可以发送到多个不同的Consumer Group,但是一个Consumer Group中...
2021-11-17 23:04:37
924
原创 kafka初识
吞吐量 单位时间内处理的数据量。 讲求的单位时间内处理的数据量要大。 跟他对比的是实时性,它要求的是响应时间要快。 请介绍一下zookeeper(Zookeeper协同的是什么) 概念说明 Zk是分布式环境下的第三方协同服务,帮助分布式系统,比如存储、计算、调度等均需要协同服务。 特点特征 简单、易使用、高效、稳定 应用场景 核心是要解决一致性问题 分布式环境下的命名一致性问题 分布式服务环境下的高可用性问题 HA问题 Hig
2021-11-16 22:34:08
577
原创 SparkStreaming
一、SparkStreaming概述1. 数据处理类型分类- 静态数据 - 数据源是不变的、有限的、显式离散的 - 多适用于批量计算、离线计算- 流数据 - 数据是变动的、无限的、连续的 - 多适用于实时计算,能在秒级、秒内处理完成 - 实时数据分类 - 小时级 - 分钟级 - 秒级- sparkstreaming是什么 - 一句话总结:微批处理的流式(数据)实时计算框架 - 原理:是把输入数据以某一时间间隔批量的处理,当批处理...
2021-11-15 22:41:07
960
原创 SparkSql
一、SparkSql是什么1. SparkSql是Spark处理数据的一个模块2. 专门用来处理结构化数据的模块,像json,parquet,csv,普通表格数据等均可3. 与基础RDD的API不同,Spark SQL中提供的接口将提供给更多关于结构化数据和计算的信息,并针对这些信息,进行额外的处理优化二、SparkSql操作方式说明1. SparkSql shell - 类似于hive shell2. DataFrames API3. DataSets API - 集成了R...
2021-11-15 20:02:49
782
原创 spark 算子
课堂回顾:maven构建spark开发环境与测试 引入winutils 配置spark-core依赖 Scala实现spark Wordcount 代码编写 Spark wordcount 打包部署 上传运行 Spark常用算子 什么是算子 算子的重要作用 算子分类 转换算子 Value型转换算子:其处理的数据项是value型 Key-value型转换算子:其处理的数据是key-value型 行动算子 foreach算子:无输出
2021-11-12 22:09:06
570
原创 spark
、架构设计1. 架构设计图 2. 相关术语名称解释- RDD(Resilient Distributed DataSet)- partiton(分区)- 算子- transformation类算子- Action算子- 窄依赖- 宽依赖- Application- Driver- Cluster Manager- WorkerNode- Exector- Task- Job(作业)- Stage(阶段..
2021-11-11 22:56:46
632
原创 scala总结
一、集合collection1. 概念说明- 该集合与java中的集合类似,只是scala重新实现了自身的集合抽象- 分为可变集合和不可变集合- 常用集合列表 | **序号** | **集合类** | **说明** | | -------- | -------------------- | ---------------------------------------...
2021-11-10 23:57:35
239
原创 scala基础篇
标识符 有新增关键字,如yield成为scala新关键字,则在scala调用时,则应由Thread.yield()改成Thread.`yield`来使用引用引入单个类:import java.util.Date;引入包下所有类:import java.util._;引入包下若干类(选择器)importjava.util.{Date,HashSet,HashMap}引入类后重命名:import java.util.{Date => OldDate}隐藏包下的部分成...
2021-11-09 23:03:05
121
原创 项目的注意事项
一、做项目的基本流程1. 梳理数据流程2. 解决关键性问题3. 串联整个流程即标准化及正式上线二、解决关键性问题1. 对比差一点- 数据的文件组织形式不同- 数据的数据格式不同2. 相同点- 数据流程一样- 数据目标也是一样三、曝光- exposure四、广告领域专业术语1. PV:page visit,曝光一次即为一个pv2. uv:uniq visit,或者叫user visit- 即用户去重后的统计...
2021-11-08 22:47:35
95
原创 微博数据挖掘脚本流程
一、加载数据到源表```shell#! /bin/bashtxt_file_path_local=../data/text_data/weiboplus.txttxt_dir_path_hdfs=/tmp/ws/data/db_name=wangshuaioutput_table=weiboplus_originfile_path=`echo $txt_file_path_local | awk -F '/' '{print $NF}'`hdfs dfs -put -f $txt_fi
2021-11-08 22:45:45
977
原创 2021-11-07大数据脚本化
一、将hive表推送到mysql中1. 实现方法分析- 自行实现,而不用sqoop等第三方数据传输同步插件- 备注:sqoop是实现hive与其他各种关系型数据(rdb)的最受欢迎的第三方组件2. 自行实现步骤- 将hive表数据生成到文件weibo_hot_result.txt(原名000000_0)中- 拥有一个mysql库,以及相应的读写权限- 在mysql中创建词频表weibo_hot_words- 执行mysql命令将weibo_hot_restlt.txt导入到weibo
2021-11-07 22:52:38
99
原创 黑名单和白名单
Ansj分词器有几种内置的分词器,及其作用? 5种 BaseAnalysis DicAnalysis IndexAnalysis NlpAnalysis ToAnalysis 建表的注意事项 1、内外表分类 2、字段与类型 3、分区与否 4、行与字段的分隔符 5、存储格式 搜索引擎的索引建立的格式 倒排索引 将查询目标和查询的数据源进行映射关系处理。 关于中...
2021-11-04 23:12:41
384
原创 开发细节与风险控制
一、开发细节与风险控制开发细节当中即伴随着各种各样的风险,并要及时反馈和处理风险,如工作量评估、技术难度评估、人员变更、需求变更等等,故我们将两者放在一起,不可拆分 开发细节 共9个开发模块 1.1确定源数据文件集合 步骤拆分 来源渠道 渠道选择 确定数据集 确定数据文件格式 确定数据结构及Demo数据查看 洞查数据本身 总大小
2021-11-03 22:14:06
110
原创 项目概述(基于海量微博数据的仓库构建与舆情热点挖掘项目_v3.0)
1、需求概述用户需求->系统需求2、需求分析系统需求->官方要求系统需求说明书企业需要的系统原型3、技术方案和开发计划技术方案的IO:系统原型->技术方案说明书开发计划:输入较多较全面,输出是排期表4、微博的删除从用户端看是真的被删除了但是从数据库角度看,都是逻辑删除CSV格式数据,以逗号分隔more 文件名 空格翻页 回车读行wc -l 文件名 看有多少行ls | wc -l 看有多少个文件du -sh * | sor...
2021-11-02 22:34:08
283
原创 采集微博数据ETL项目的处理以及相关技术点
中小型数据仓库项目的标准开发流程以数据流来驱动项目开发以已下载微博数据ETL项目为例基于定的微博数据目录,拿到该目录下所有的输入数据的文件路径。(技术问题done) 基于文件路径,读取文本文件的数据。 解析读取出来的文件数据,成为结构化数据-微博博文对象抽象类-ContentPojo,最终获取对应的对象集合。(技术问题done) 解析读取出来的文件数据,成为结构化数据-用户对象抽象类-UserPojo, 最终获取对应的对象集合。(技术问题done) 将两个抽象的对象集合,进行文本化数据落
2021-11-01 21:58:10
153
原创 2021-10-31 已采集微博数据ETL项目
常见的数据格式Txt,文本行Html,网页,超文本标记语言Xml:是html的超集,就是一种自定义标记标签型格式。pom.xmlJsonKey:value也可以key:value的数组中小型数据仓库项目的标准开发流程以数据流来驱动项目开发以已下载微博数据ETL项目为例1、基于定的微博数据目录,拿到该目录下所有的输入数据的文件路径。2、基于文件路径,读取文本文件的数据。3、解析读取出来的文件数据,成为结构化数据-微博博文对象抽象类-ContentPojo,最
2021-10-31 21:15:11
110
原创 Linux
一.操作系统概述1.计算机基础 计算机系统由”硬件”和”软件”两大部分组成。计算机的软件通常又可以分为两大类:系统软件和应用软件。2.操作系统简介计算机系统由硬件和软件两部分组成。操作系统(OS,Operating System)是配置在计算机硬件上的第一层软件,是对硬件系统的首次扩充。它在计算机系统中占据了特别重要的地位;而其它的诸如汇编程序、编译程序、数据库管理系统等系统软件,以及大量的应用软件,都将依赖于操作系统的支持,取得它的服务。操作系统已成为现代计算机系统(大、中、小及微型机)..
2021-10-14 14:20:16
358
原创 SpringBoot入门知识点
1、使用idea的插件快捷创建springboot项目(根据需要选择不同的依赖) spring.io(1、先从官网下载springboot项目 2、导入到idea中 3、根据pom.xml的配置下载依赖) 2、springboot内置了tomcat,springboot可以独立的启动不需要服务,当然内置了tomcat 3、springboot核心配置文件 properties:就是一个普通的资源文...
2021-09-28 18:41:22
190
原创 Spring
一、概述Spring是一个轻量级开源的框架,更好的贯彻了“高内聚低耦合”的思想,很好的与其他框架其他模块进行无缝整合,spring有两大核心板块 IOC(控制反转)、AOP(面向切面编程)二、构建创建java项目导入相关依赖 core、context、spel、beans 创建applicationContext.xml配置文件,注意将文件的约束头信息拷贝 创建service dao model 相关的包及接口 创建测试类 通过ClassPathXmlApplicationConte...
2021-09-01 20:49:25
75
原创 连接池、事务、一对多和多对多配置
一、连接池1.1 连接池是面向数据库连接的连接池是为了优化数据库的连接资源1.2 mybatis中的连接池在Mybatis中我们将它的数据源DataSource分为①、UNPOOLED 不使用连接池的数据源会为每一个数据库操作创建一个新的连接,并关闭它。该方式使用于只有小规模数量并发用户的简单应用程序上。②、POOLED 使用连接池的数据源会创建一个数据库连接池,连接池中的一个连接会被用做数据库操作。一旦数据库操作完成,Mybatis会将此连接返回给连接池...
2021-08-31 20:43:04
173
转载 mybatis 标签
1. 常用标签介绍 1.1 mybatis配置文件的标签 Properties resource: 直接可以获取类路径 url: 指定文件的绝对路径。 方式一: <properties> <property name="jdbc.driver" value="com.mysql.jdbc.Driver"/> ...
2021-08-30 22:46:53
609
原创 Mybatis
1. 入门案例 第一步: 创建一个java项目 ——> 创建lib文件夹 ——> 指定lib为我们使用jar包的路径(buildpath) 第二步: 导入相应的jar包 1、log4j(日志) 2、mysql(链接数据库) 3、mybatis(Mybatis框架的依赖) 第三步: 导入配置文件 log4...
2021-08-29 21:05:29
63
原创 反射概述及应用
反射1、概述反向探知,在程序运行中动态的获取或操作类中的属性就是反射。1.1、初探反射: 获取Class对象的四种方式 Class clazz1 = User.class; 2 Class<?> clazz2 = Class.forName("com.tledu.pojo.User"); 3 Class<? extends User> clazz3 = new User().getClass(); 4 Class<?> clazz4 =
2021-08-26 20:46:04
521
原创 Filter
一、Filter1.1概述生活中的过滤器:净水器,空气净化器,土匪、web中的过滤器:当访问服务器的资源时,过滤器可以将请求拦截下来,完成一些特殊的功能。过滤器的作用:一般用于完成通用的操作。如:登录验证、统一编码处理、敏感字符过滤...执行过程1.2环境搭建1 创建filter.实现filter覆写方法public class InitFilter implements Filter { @Override public void init(Filte...
2021-08-23 11:58:58
102
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人