- 博客(65)
- 收藏
- 关注

原创 大数据--毕业生
前序本人目前在郑州实习工作,公司除了薪资有点低,工作压力丝毫没有,想着去北京闯闯。于是写个笔记总结一下。为找工作埋伏笔。今天是2022年2/17,今年的目标是在北京找个税后13K的。面试了3家,本人需要加强的地方是,第一 :数据结构,操作系统,计算机网络,sql,算法。第二 :面试的经验。(总是感觉面试的时候说不出来自己的强项)第三: 业务水平每天还要精进。常见基础问题//之前已经背过许多题了,这里都是默写,根据我的理解,所以有时候可能不对,望指正。hadoophdfs的写流程:首先由三部分组
2022-02-17 11:58:07
2748
2

原创 第三次学flink
Flink为何而出现人们想要高吞吐,低延迟处理数据,以前的storm只能低延迟,做不到高吞吐,spark Streaming可以高吞吐,但是更多的场景是要根据事件数据切割,或者说要实现比较复杂。主要参考尚硅谷和官网...
2021-12-14 09:28:43
1997

原创 常用技巧总结
JSONobjectreadTree ObjectMapperJSON.parseObject定时运行某个方法一般用于数据库更新,然后让后端数据重新读取Timer timer =new Timer();timer.shedule(new TImerTask(){ run(需要重复运行的方法)},(delay)5000,(period)5000)......
2021-08-30 16:48:13
579
原创 hadoop权威指南第四版
迭代处理(iterative processing) spark.例如机器学习算法,需要很多迭代。4 SEARCH 搜索 solr (Solr它是一种开放源码的、基于Lucene Java 的搜索服务器)。因为计算机硬盘的发展趋势是:寻址时间的提升远远不如传输速率的提升,如果访问包含大量地址的数据,读取就会消耗很多时间,1 在线访问的组件是hbase。一种使用hdfs底层存储的模型。支持单行的读写,对数据块读写也是不错的。RDBMS B树是传统的数据库 ,适合更新一小部分数据。
2023-10-30 01:58:31
1166
原创 <增长黑客>笔记
免费增值模式 用免费服务吸引用户,再通过增值服务将部分免费用户转化为收费用户。uproar 没钱烧广告,制作趣味游戏附加到网站上,用户完成游戏即可跳转到uproar上。同时让其他网站的owner 很轻易的就能添加到他的网址上(是不是类似于刷抖音 时看到广告,会直接跳过,但是如果是趣味游戏的话,我有时候也会玩一下。Logmein 花了一大堆钱,换各种途径砸广告,转化率比较低,采用免费增值模式,当时这种模式很难让人相信免费,在旁边新增了个付费版本,同时优化下载,注册流程 (解决用户的痛点)
2023-06-12 21:39:30
690
原创 presto配置mysql,ES,clickhose,redis踩坑
https://prestodb.io/docs/current/connector/kafka-tutorial.html//根据参考文档配置,简单的不说了连接redis面临的问题是 .json文件映射问题首先只能映射String和hash第二hash的存放规则 你要 hset 数据库名:表名:test1 age 1 这样存才能映射(就是说 json映射文件中 ,key的值是 数据库名:表名:test1 value的值是 age 1)hash说实话就是<key,map>类型,
2022-05-06 12:02:09
1503
原创 hive优化
命令explain (sql语句)查看详细的MRexplain extended (sql语句) 查看参数的MR动态分区就是说给分区表导入数据的时候,想给数据动态分区插入进去1首先开去动态分区功能set hive.exec.dynamic.partition=true;2 设置为非严格模式(动态分区的模式,默认strict,表示必须指定至少一个分区为静态分区,nonstrict表示允许所有的分区字段都可以使用动态分区)set hive.exec.dynamic.partition.mode=
2022-04-17 16:54:51
1739
原创 python xpath的简单应用
import requestsfrom lxml import etreeimport osimport re# 获取目标urlbase = response = requests.get()response.encoding = 'utf-8'html = etree.HTML(response.text)# 获取文字x = html.xpath('/html/body/div/div[4]/div[1]/div[2]/ul/li')novel_path = '会计学词汇中英文对照
2022-04-15 16:06:25
537
原创 nvm use 版本 乱码错误
nvm use 乱码错误1 未使用管理员权限在 C:\Windows\System32 ,右键管理员启动cmd.exe2 下载的目录有中文或者空格例如C :profile file/nvm此时需要重新下载
2022-03-04 10:01:20
511
原创 微服务日常学习
服务的拆分及远程调用调用其他服务用restTemplate其实用过好多次了,只不过原来是微服务的内容啊Eureka注册中心管理服务,30s心跳配置 1 引入依赖 2添加注解 3 添加yml配置信息 这就配好了服务,4还要在每个服务中yml添加一下Eureka的地址就可以了。那么如何调用呢1修改url地址写服务名称实现负载均衡给RestTemplate加注解@LoadBalanced更改负载均衡的规则在service中。@Beanpublic IRule randomRule().
2021-12-06 16:16:48
410
原创 JVM学习
进程和线程进程是操作系统分配资源的最小单位线程是操作系统调度的最小单位JVM JRE JDKjava虚拟机识别class文件,解析它的指令,最终调用操作系统上的函数,完成我们想要的操作。JRE是java运行环境,JVM标准加上一大推基础类库。JDK包含JRE,还提供了一些非常好用的工具。JVM可以运行多种语言JVM只识别字节码,只要语言服了字节码的规范,像scalaJVM有哪些内存区域虚拟机栈:在JVM运行过程中存储当前线程运行方法所需的数据,指令,返回地址。本地方法栈: 他服务的对
2021-12-06 11:18:13
521
原创 Leecode
2021 /11/8字符串比较String a=“ABCDEF”String b=‘BC’ 得到b在a的第几位暴力public class test { public static void main(String[] args) { String a = "dweaaaaaaa"; String b = "ea"; int result = (int) search(a, b); System.out.println(res
2021-12-06 09:30:32
171
原创 第二次学spring
SPRINGlazy-init =true 懒加载init-method=“test” 只要一实例化就加载这个方法单例作用域<bean id='test' class='com.test' scope=singleton>原型作用域 每次请求都会创建一个新的bean对象<bean id='test' class='com.test' scope="prototype">...
2021-11-10 18:07:20
685
转载 clickhouse 实时同步mysql binlog
为了能够监听 binlog 事件,之前我们需要用到类似 canal 这样的第三方中间件,这无疑增加了系统的复杂度。 ClickHouse 20.8将新增 MaterializeMySQL引擎 ,可通过binlog日志实时物化mysql数据,提升数仓的查询性能和数据同步的时效性;原有...
2021-10-29 09:34:14
1511
原创 Shiro 和jwt
ShiroSubject currentUser=SecurityUtils.getSubject()Session session=currentUser.getSession()currentUser.isAuthenticated()currentUser.getPrincipal()currentUser.hasRole("schwartz")currentUser.ispermitted("lightsaber:wield")currentUser.logout();注销三大组件
2021-10-25 09:21:28
301
原创 学习网站啊
黑客学习网址10.HackingLoops:https://www.hackingloops.com/9.XCTF_OJ 练习平台:https://adworld.xctf.org.cn/8.网络信息安全攻防学习平台:http://hackinglab.cn/index.php7.SecurityTube:http://www.securitytube.net/6.Cybrary:https://www.cybrary.it/5.Hack This Site:https://www.hackth
2021-10-03 22:34:56
748
原创 springCloud
微服务spring cloud NetFlix 一站式解决方案api网关 zuul组件FeignEureka服务注册发现熔断机制:HystrixApache Dubbo Zookeeper 半自动API:没有DUbboZookeeper借助hystrixSpring Cloud Alibaba 最新一站式
2021-09-26 21:57:41
127
原创 前端学习快速
html 管架构, css是修饰,js是动态交互CSS <style>标签写修饰 <link>写连接的css选择器基本选择器类选择器<style>.demo{}</style><h1 class=demo>id选择器<style>#demo{}</style><h1 id=demo>javaScriptjQueryjQuery库,里边存在大量javaScript函数原
2021-09-24 18:02:04
123
原创 数据仓库4.0
仅用于自己学习数据流程设计搭建版本选择Apache :运维麻烦,组件间兼容性需要自己调研CDH: 国内使用最多的版本,6.32之前免费,从2021年开始收费。 1个节点1万美元云服务选择阿里云的EMR(不用搭建平台和考虑兼容性问题),MaxCompute, DataWorks亚马逊云的EMR腾讯云EMR华为云EMR(市场份额少)物理机和云主机选择集群规模计算例子 用户100万,每个用户平均100条数据,每条日志1k左右,每天100w1001000/1024/1024约等于10
2021-09-13 09:24:41
1351
原创 list中,foreach不能数字累加
List<YuQing> list = null; List<YuQing> yuQings = yuQingMapper.selectAll(); int i = 1; 只能用这种,后面他用foreach(),里面写的是lambda表达式,而lambda表达式里边的数据必须写死,所以外边参数传不进去,只能用for循环了 for(YuQing yuQing :yuQings){ yuQing...
2021-09-03 18:05:43
2248
原创 Utils
#KafkaUtilimport org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.streaming.connectors.kafka.FlinkKafkaConsumer;import org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer;import org.apache.flink.streaming.
2021-08-20 09:57:02
473
原创 Logback 配置 日志数据落到磁盘中
第一步 在resource文件下创建logback.xml<?xml version="1.0" encoding="UTF-8"?><configuration> <property name="LOG_HOME" value="/opt/module/rt_gmall/gmall0820" /> <!--记录日志的方式 打印到控制台--> <appender name="console" class="ch.qos.lo
2021-08-18 10:47:48
573
原创 Python
区别try cache 改为 try except字典 {} 元组() 列表[]读取文件open(“a.txt”,r) .close import os os.rename是对文件整体的操作爬虫
2021-08-11 17:51:40
124
原创 kylin
定义分布式分析引擎,他能在亚秒内查询巨大的hive表。特点标准sql接口 Kylin是以标准的SQL作为对外服务的接口2)支持超大数据集 Kylin架构
2021-08-10 21:18:05
122
原创 DataX
阿里巴巴开源的异构数据源离线同步工具,源码用python写的基础用法//首先查看格式python bin/datax.py -r hdfsreader -w mysqlwriter //从hdfs读取数据到mysql//python bin/datax.py -r streamreader -w streamsqlwriter //从流到流//把其放进一个 .py的文件夹里边// 然后直接运行就完事了...
2021-08-10 17:05:07
151
原创 String类型的dateTime数据转化为dateTime类型数据
String s="2018-10-05 10:32:16";Date date = Convert.toDate(s);DateTime dateTime = DateUtil.date(date);用hutool工具 引入pom,把String类型的dateTime数据转化为dateTime类型数据
2021-08-08 22:38:12
1062
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人