- 博客(63)
- 收藏
- 关注
原创 软实力
未进行整合1.在处理一些事情的时候,可以从自己上级的角度出发,需要平常观察自己上级的技术理解力,承担能力,沟通能力,处理事情的决策能力,才能更好的应对一些繁琐的事情,从繁琐的事情中理清解决事情的思路2.公司尤其做研发,一个个都是像机器人一样做着重复的工作,也就在遇到问题的时候,显得才有点那种氛围。我觉得工作虽然是工作,但是因为有了人的存在,才有了工作和集体,也希望工作中不是一直都是很沉闷的氛...
2021-04-02 11:32:00
140
1
原创 硬实力
1.left join产生的数据倾斜两个子集LEFT JOIN之后GROUP BY从代码角度出发更综合,但是当两个子集特别大时,会影响到效率,应该分别GROUP BY之后再进行LEFT JOIN,防止数据倾斜;2.维度理解维度太多了,有个dwd层放入多个维度,比如一个用户在不同的页面操作一个内容,这个维度就是(用户,页面,内容),若放在dws里维度是(内容,页面),相当于从dwd聚合来...
2021-03-29 16:27:00
174
原创 mac图标设置
mac图标可以设置大小及行列设置Lunchpad,App启动台的行列数: 打开终端。设置 Launchpad 的列数,一行几个App? defaults write com.apple.dock springboard-columns -int 12设置 Launchpad 的行数,有几行App? defaults write com.apple.dock springboard-rows...
2021-03-08 11:01:00
187
原创 release中技术点的定义
zeepplinzeeplin是基于Notebook技术开发的大数据交互分析服务软件,可以基于Web界面组合多个大数据分析引擎的处理能力,并内置提供了基于web的可视化界面,可以连接肌肤所有的Apache大数据处理服务系统。(用于大数据的分析和可视化)zeppelin-daemon.sh start/stop 开启或关闭hivehive是一个构建在Hadoop上的数据仓库工具(框...
2020-06-15 10:33:00
176
原创 数仓面试
1.业务数据库同一个订单的不同状态的数据怎么处理拉链表2.数据仓库了解吗?建模模型3.几个业务系统?4.把数据存到哪儿,分析人员怎么去查数据5.数据源有哪些6.用户量有多少?日活多少?数据量多少?2到3亿,人均130条数据,日活10万+,总共3亿条数据,每条1.6k,数据量300G...
2020-06-15 10:28:00
641
原创 项目总体分析
不同的视频APP可能和不同公司的ADX有股份关系,甚至,有的视频APP做大了,可以用自己的ADX,那从app到ADX的数据可以直接对接,否则就要有合作,然后ADX对接广告投放引擎广告投放引擎(也就是媒体服务器)对接多个媒体的数据,(从广告投放引擎,怎么将数据Flume到hdfs,这个不清楚)这个要记住:面试可能会问 dmp计算的源数据是由交易平台对接了多个媒体的...
2020-06-14 22:53:00
500
原创 spark
Spark第一代引擎:mapreduce第二代引擎:impala(DAG)第三代引擎:spark第四代引擎:flink定义大数据的统一的计算引擎。采用 DAG来进行计算。Spark是一种快速、通用、可扩展的大数据分析引擎Spark部署模式Local 多用于本地测试,如在eclipse,idea中写程序测试等。Standalone是Spark自带的一个资源调度框...
2020-06-08 10:37:00
396
原创 dmp准备工作
scala依赖库的加载然后:点OK,再点apply就可以了输出控制台log4j信息过多添加log4j.properties文件到resources中文件内容:# 屏蔽控制台日志输出# Global logging configurationlog4j.rootLogger=WARN, stdout# Console output...log4j.appen...
2020-06-02 11:26:00
142
原创 dmp中遇到的问题
解决方法,就是在项目的src下创建名为scala的路径,并且Mark Directory as Source root同样在test中也创建,然后Mark Directory as Test Sources Root...
2020-05-31 19:03:00
214
原创 dmp中的问题
dmp中的广告推送 携程本身就可以是一个ADX,广告主想推送的广告平台可能不止携程一个,也可能是去哪儿等,携程本身有自己的DSP,RTB和DMP,广告主就可以做到直接将广告信息放入DSP,进行推送。 问:如果想要在百度和抖音等平台推送携程,是不是要分别对百度和抖音的DSP放入携程广告信息。...
2020-05-31 17:05:00
169
原创 携程结合用户画像
用户画像作为“大数据”的核心组成部分,在众多互联网公司中一直有其独特的地位。作为国内旅游OTA的领头羊,携程也有着完善的用户画像平台体系。目前用户画像广泛用于个性化推荐,猜你喜欢等;针对旅游市场,携程更将其应用于“房型排序”“机票排序”“客服投诉”等诸多特色领域。本文将从目的,架构、组成等几方面,带你了解携程在该领域的实践。1.携程为什么做用户画像首先,先分享一下携程用户...
2020-05-31 15:02:00
928
原创 项目中的难点
地理位置GEOHASH算法图计算spark序列化问题类字段过多导致异常?extends Product with Serializable正确理解分布式程序数据倾斜,某个task数据量过大调优过程...
2020-05-31 00:06:00
312
原创 dmp中技术点的定义
互联网广告的分类Banner公告插屏全屏富媒体广告信息流广告积分墙移动视频广告:贴片和角标原生广告竞价排名常用计费方式CPA(Cost Per Action) 每行动成本CPS(Cost Per Sales)每销售成本CPT(Cost Per Time) 每时间段成本CPC(Cost Per Click) 每点击成本行业常见概念广告主:需要推广自...
2020-05-30 09:43:00
441
原创 dmp总体概述
互联网广告的分类Banner公告插屏全屏富媒体广告信息流广告积分墙移动视频广告:贴片和角标原生广告竞价排名常用计费方式CPA(Cost Per Action) 每行动成本 行动就是进行操作,比如登录,填写等CPS(Cost Per Sales)每销售成本 进入且购买CPM(Cost Per Mille)每千人成本 每一千人浏览C...
2020-05-30 09:43:00
494
原创 D: \ 函数无法访问
网上搜了很多,都说要重新备份,可是我的D盘安装很多东西,最后没办法,尝试关机,(不是重启),关机过了5分钟吧,再开机就好了
2020-05-10 08:19:00
163
原创 自己总结
开始要进行数据采集,就是运行爬虫脚本,爬虫脚本项目名为spider-csair.运行准备:要开始nginx服务,在master上,/opt/apps/openristy/nginx/sbin/ 下,运行./nginx 每个机器上都运行zkServer.sh start开启zookeeper服务,然后就可以开启kafka,[root@hadoop01 kafka_2.11-...
2020-05-06 22:34:00
119
原创 遇到过的问题
ERR Slot 4648 i s already busy (Redis::CommandError)开始创建集群服务器的时候出现了问题这样就可以把可能存在的数据删除掉,确保每一个插槽是没被占用的,最后重新尝试创建redis集群服务器,创建成功,而且服务器之间也可以实现自动重定向:对每一个节点都这样做,然后创建集群服务器./redis-trib.rb cre...
2020-05-06 19:42:00
169
原创 Could not update ICEauthority file /var/lib/gdm/.ICEauthority
进入单用户模式:按E,然后:继续按e按上下键选择 kernel 那一行 按e键 进入后 追加 空格single回车确认,然后按b然后总结:原因是我吧/var的用户和用户组改成了普通用户导致的,所以不要随便改变用户和用户组,不然就要进入单用户模式下改回来, 缺点:这样改回来后,使用第三方软件可以操作,但是本...
2020-05-02 10:33:00
1317
原创 反爬虫中技术点的定义
kafka 是一个分布式的,容错的,高效的消息通到。主要用于做实时的数据流、构建实时应用等。 设计目标:为处理实时数据提供一个统一、高吞吐量、低延迟的平台。 kafka是一个分布式消息队列:生产者、消费者的功能。 启动:先保证zk集群启动 再启动kafka [root@hadoop01 kafka_2.11-1.1.1]# nohup ./bin/kafka-...
2020-05-01 20:12:00
208
原创 反爬虫一些问题
1.数据源是什么(数据从哪来) 数据,我是通过用户的点击生成的这些行为数据而分析的,用户点击了什么,点击了公司网站,(公司可能是搞高旅游或者是售票之类的),2.分析了哪些模块以及对应的需求 模块这么描述:订单方面的分析,用户方面的分析,商品方面的分析,地址方面的分析,然后就说自己做过哪个模块以及对应的需求3.基于这些需求的分析,结果的导向是什么 最终的目的,通过反爬虫把极...
2020-04-14 22:24:00
162
原创 反爬虫准备
用import project的方式导入项目保证idea的maven配置正常: File-->>setting-->>Build,Execution,Deployment-->>Build Tools -->>Maven, Maven home directory: C:/apache-maven-3.25...
2020-04-03 19:30:00
130
原创 Cannot run program "git" (in directory "/opt/apps/azkaban-3.57.0"): error=2,
2019-12-10 16:14:00
362
2
原创 配置分布式hadoop时报错:mkdir:无法创建目录"/opt/apps/hadoop/logs": 权限不够
本人在搭建完全分布式时, 启动start-all.sh时: 出现了slave1:mkdir :无法创建目录"/opt/apps/hadoop/logs":权限不够 slave2:mkdir:无法创建目录"/opt/apps/hadoop/logs":权限不够顾名思义肯定是slave1,和slave2不能自动创建日志文件,slave1,和slave2都是通过mast...
2019-11-08 19:22:00
10501
3
原创 java
软件(Software)是一系列按照特定顺序组织的计算机数据和指令的集合人机交互两种方式:图形交互,命令交互。java的特点:安全可靠,面向对象,跨平台(与平台无关,可以运行在任何操作系统之上)java的三个版本:javaME(过时了),javaSE(standard editon 即标准版本),javaEE(enterprise edition 即企业版本)java如何实现跨平台的:因...
2019-08-27 12:00:00
215
1
原创 hadoop下遇到的各种问题
invalid argument 虚拟机hadoop执行stop-all.sh遇到invalid argument时,我的主机名为111,但是实际运用的时候,111不行,要使用IP地址:192.168.192.111,例如:ssh 192.168.192.111localhost: ERROR: JAVA_HOME is not set and could not be found....
2019-08-05 15:51:00
213
原创 无线网图标不见----终极奥义
简单的网上都有,来一波终极奥义——打开任务管理器,在进程里面找到windows资源管理器,然后,鼠标右键,重新开启,就会出现无线网图标,...
2019-07-14 12:31:00
182
原创 linux开发
Unix开发环境目录第一章 Solaris Computing Environment 21.认识Linux 21.1 Linux的兴起与发展 21.2.Linux系统结构(洋葱图) 31.3 Kernel 31.4 Shell 31.5 The File System 41.6 Pathnames 5第二章 Basic Linux Commands 6...
2019-07-10 10:22:00
346
原创 JDBC技术
JDBC简介 ·什么是JDBC ·什么是数据库驱动程序 ·程序操作数据库流程 JDBC3.0接口中常见接口与类的介绍 ·Driver接口 ·DriverManager类 常用方法: JDBC URL: ·Connection接口 常用方法: ·state...
2019-04-12 10:42:00
71
原创 一.Oracle数据库的使用
Oracle 数据库的使用一、 数据库相关概念 1 什么是数据库 所谓的数据库其实就是数据的集合。用户可以对集合中的数据进行新增、查询、更新、删除等操作。数据库是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。 2 数据库类型 2.1关系型 Oracle Mysql PostgreSQL DB2...
2019-04-10 11:08:00
367
原创 SQL语言
01SQL 语言基础 ·什么是 SQL 语言 a) SQL, Structured Query Language, 结构化查询语言 b) SQL 是最重要的关系数据库操作语言,是所有关系数据库管理系统的标准语言. c) SQL 语言是非过程化的语言, 只需要告诉做什么, 不需要关注怎么做, 简单. ·SQL 语言可以做什么 a) 增删改查(CRUD) b) ...
2019-04-07 22:16:00
414
原创 八.网络编程
网络编程的基本概念 ·网络的概念 ·网络连接的功能 ·网络编程的三要素 (建议使用10000以上)IP和端口和Socket含义 ·IP地址 ·端口号 ·Socket TCP和UDP协议的区别 ·TCP 特点:1.面向连接; 2.点到点的通信; 3.高...
2019-04-04 21:25:00
95
原创 七.多线程技术
多线程技术多线程基本概念_程序_进程_线程 ·程序、进程、线程 程序:(program)是一个指令的集合 进程:Process,(正在执行中的程序)是一个静态的概念。进程是程序的异常静态执行过程,占用特定的地址空间,每个进程都是独立的,有3部分组成cup,data,code 缺点:内存的浪费,CPU的负担 线程:是进程中一个“单一的连续控制流程”。CPU调度的是...
2019-04-04 09:45:00
100
原创 六IO流技术
IO流技术IO流的基本概念 ·流的原理在java程序中,对于数据的输入\输出操作以“流”(stream)方式进行; J2SDK提供了各种各样的“流”类,用以获取不同种类的数据;程序中通过标准的方法输入或输出数据; java的流类型一般位于java.io包中 ·流的概念 数据源:1.data source. 提供原始数据的原始媒介。常见的:数据库、文件、其他程序、内存...
2019-04-03 20:09:00
130
原创 JAVA大数据需要学什么
大数据时代,Java开发的需求量越来越大 大数据已经成为了企业竞争的核心力量。而Java是企业大数据技术的主要支撑语言,Hadoop本身就是用Java编写的。当你需要在运行MapReduce的服务器集群上发布新功能时,你需要进行动态的部署,而这正是Java所擅长的。各中小企业求贤若渴,急需全面掌握Java软件开发基础技能与知识的软件工程师。 虽说Java是编程语...
2019-04-02 10:36:00
719
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人