- 博客(20)
- 资源 (3)
- 收藏
- 关注
原创 常见面试题一
broadcast原理:将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来,然后对其创建一个Broadcast变量,广播给其他Executor节点,直接与当前RDD中的每一条数据按照key进行对比,链接,避免shuffle操作。hash分到不同的批次,每批次遍历一遍,存入hashmap<出现的数字,出现的次数>,读出次数大于1的去除掉,剩下的就是重复数据;过拟合:在deep层直接增加dropout的率,减少epoch轮数,增加更多的数据,增 加正则化力度,shuffle 数据。
2023-04-13 21:21:38
180
原创 LeedCode刷题
原文链接:https://blog.youkuaiyun.com/peachzy/article/details/106758744。交错路径的长度定义为:访问过的节点数目 - 1(单个节点的路径长度为 0 )。如果前进方向为右,那么移动到当前节点的的右子节点,否则移动到它的左子节点。定义dfs(当前节点,当前是左边还是右边,当前的最长交叉路径)选择二叉树中 任意 节点和一个方向(左或者右)。请你返回给定树中最长 交错路径 的长度。注意:从任意节点开始,并不一定是根节点。改变前进方向:左变右或者右变左。
2023-03-30 16:49:12
92
原创 大数据基础三:spark参数调优
spak运行原理&参数调优一、spark运行原理参考:Spark资源参数调优参数_TURING.DT-优快云博客_spark 资源参数Hive on Spark调优_窗外的屋檐-优快云博客_spark.executor.instances二、参数调优1、必调参数num-executors/spark.executor.instancesexecutor-memory/spark.executor.memoryexecutor-cores/spark.execu
2022-07-07 11:25:12
508
原创 算法基础一:分类回归树—集成树—TreeSHAP
一、分类回归树1、id32、c4.53、cart二、集成树1、bagging:随机森林2、boosting:GBDT、XGBoost、lightGBM三、TreeSHAP
2022-02-09 17:18:44
1682
原创 大数据基础二:spark原理和常见错误
一、spark原理参考:Hive on Spark调优_窗外的屋檐-优快云博客_spark.executor.instancesSpark资源参数调优参数_TURING.DT-优快云博客_spark 资源参数1、Job——对应action算子:包含很多task的并行计算,可以认为是Spark RDD 里面的action,每个action的计算会生成一个job。用户提交的Job会提交给DAGScheduler,Job会被分解成Stage和Task。2、Stage——对应Shuffl
2021-12-09 11:35:27
3352
原创 pyspark dataframe & pandas dataframe
pyspark创建的dataframe和普通pandasdataframe有很多容易使用上容易混淆的地方,特来梳理记录下。一、pandasdataframe特有的用法data1.show(行数) 展示表结构和数据二、pysparkdataframe特有的用法1、新增一列分配唯一切递增的iddf.withColumn('new_id',fn.monotonically_increasing_id()).show()三、两者相同用法的1、describe()2、head...
2021-12-07 20:22:54
2432
原创 各种环境配置
1、shell文件指定python路径#!/bin/shexport PATH=/usr/local/anaconda3/bin:$PATHsource activate basesource ~/.bashrc2、python文件,pyspark执行python路径import osos.environ['PYSPARK_PYTHON'] = '/usr/local/anaconda3/bin/python3.6'
2021-11-26 18:36:20
116
原创 工具类1:git常用操作
一、基本操作1、新建一个项目需要初始化才能有master分支git add .git commint -m 'xx'2、分支操作创建分支: git branch mybranch切换分支: git checkout mybranch查看本地/远程分支: git branch -a创建并切换分支:git checkout -b mybranch创建切换到分支并和远程分支建立联系 git checkout -b dev origin/dev删除本地分支:git branch -.
2021-11-03 22:26:40
376
原创 大数据基础一:大数据组件
一、单机、集群、分布式1、单机一个系统业务量很小的时候所有的代码都放在一个项目中就好了,然后这个项目部署在一台服务器上就好了。整个项目所有的服务都由这台服务器提供。这就是单机结构。2、集群单机处理到达瓶颈的时候,你就把单机复制几份,这样就构成了一个“集群”。集群中每台服务器就叫做这个集群的一个“节点”,所有节点构成了一个集群。每个节点都提供相同的服务,那么这样系统的处理能力就相当于提升了好几倍(有几个节点就相当于提升了这么多倍)。3、分布式(微服务)分布式结构就是将一个完整的系统,按
2021-11-01 10:16:01
2238
原创 Hive SQL基本操作
添加分区ALTER TABLE table_name ADD PARTITION (dt = '2020-08-08') LOCATION '/user/hadoop/warehouse/table_name/dt=2020-08-08';一次添加多个分区ALTER TABLE table_name ADD PARTITION (dt = '2020-08-08') LOCATION '/user/hadoop/warehouse/table_name/dt=2020-08-08' PART
2021-10-22 20:28:01
1481
原创 CPU&GPU加速计算
1、CPU(Centrol Processing Unit)CPU上的大部分面积做了cache 和控制逻辑,天然适合做复杂串行程序;2、GPU(GraphicProcessing Unit):GPU有更多的晶体管用于数据处理,特别适用于解决并行计算的问题。可以使程序执行速度加快。为处理图形图像数据而产生的;天然适合做大吞吐量简单计算;3、GPU通过多个线程并行减少取数据的等待4、异构运算:cpu+gpu 结合1)cpu和gpu频繁通信的话,需要考虑两者的带宽(PCle B..
2021-10-13 11:32:12
2227
原创 数据预处理
一、缺失值填充data= data.fillna(dict(zip(dense_columns, len(dense_columns) * [0.0]))).fillna(dict(zip(sparse_columns, len(sparse_columns) * [-1]))).replace('', '-1').replace('nan', '-1').replace('NULL','-1')PS:fillna处理的NaN也就是存在Hive表中的NULL,后面可以用replace对特定的缺失
2021-10-09 16:25:14
114
原创 算法基础二:神经网络&深度学习进阶1
一、理念杂谈:1、两大主题:1)神经网络:一种受生物学启发的编程范式,能够让计算机从可观测数据中学习,模仿人类学习的过程;2)深度学习:用于神经网络学习的一套强大的技术;2、新的编程范式:神经网络是不同于以往的编程范式。传统的编程方法告诉计算机做什么,把大问题分解成许多小问题,明确任务,明确每一步,才能让计算机执行;神经网络不直接告诉计算机如何解决问题,而是让它从可观测的数据中学习,让它自己找出解决问题的方法。3、三代神经网络的发展1)感知机上世纪五六十年代、拥有输入层、输出层和一
2021-10-08 14:54:55
353
原创 网络 HTTP协议
Tip1:HTTP简介1.定义:超文本传输协议(HyperText Transfer Protocol)是互联网上应用最为广泛的一种网络协议。所有WWW文件都必须遵守这个标准。基于TCP/IP协议。2.特点(1)支持客户/服务器模式(2)简单快速:只需要传输请求方法和路径。(3)灵活:HTTP允许传输任意类型的数据对象。(4)无连接:限制每次连接只处理一个请求。(5
2016-04-22 20:53:43
563
原创 IOS网络入门-Socket套接字
Tip1:网络基础1.计算机网络三部分组成:(1)资源子网:面向用户的部分,负责全网络面向应用的数据处理。(2)通信子网:负责数据通信(3)通信协议:通信双方必须遵守的规则和约定。2.分类:广域网、局域网3.网络体系结构OSI(Open System Interconnection)开放系统网络互联:(1)物理层:物理设备,原始比特流传输(2)数据链路层:网
2016-04-19 20:10:09
1438
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人