自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

Phyllis2016的博客

2016年初开启我的IOS之旅，希望与大家一共学习

原创推荐系统入门

推荐算法入门

2023-10-17 21:15:16 191

原创常见面试题一

broadcast原理：将较小RDD中的数据直接通过collect算子拉取到Driver端的内存中来，然后对其创建一个Broadcast变量，广播给其他Executor节点，直接与当前RDD中的每一条数据按照key进行对比，链接，避免shuffle操作。hash分到不同的批次，每批次遍历一遍，存入hashmap<出现的数字，出现的次数>，读出次数大于1的去除掉，剩下的就是重复数据；过拟合:在deep层直接增加dropout的率，减少epoch轮数，增加更多的数据，增加正则化力度，shuffle 数据。

2023-04-13 21:21:38 232

原创 Python基础

Python基础

2023-04-04 21:59:30 204

原创 LeedCode刷题

原文链接：https://blog.youkuaiyun.com/peachzy/article/details/106758744。交错路径的长度定义为：访问过的节点数目 - 1（单个节点的路径长度为 0 ）。如果前进方向为右，那么移动到当前节点的的右子节点，否则移动到它的左子节点。定义dfs（当前节点，当前是左边还是右边，当前的最长交叉路径）选择二叉树中任意节点和一个方向（左或者右）。请你返回给定树中最长交错路径的长度。注意：从任意节点开始，并不一定是根节点。改变前进方向：左变右或者右变左。

2023-03-30 16:49:12 106

原创好的编程规范

编程规范

2023-03-25 15:31:03 105

原创大数据基础三：spark参数调优

spak运行原理&参数调优一、spark运行原理参考：Spark资源参数调优参数_TURING.DT-优快云博客_spark 资源参数Hive on Spark调优_窗外的屋檐-优快云博客_spark.executor.instances二、参数调优1、必调参数num-executors/spark.executor.instancesexecutor-memory/spark.executor.memoryexecutor-cores/spark.execu

2022-07-07 11:25:12 533

原创大数据基础三：spark常用算子

spark 算子

2022-06-30 23:42:27 858

原创 Linux常用命令

Linux常用命令

2022-06-15 10:21:15 96

原创算法基础一：分类回归树—集成树—TreeSHAP

一、分类回归树1、id32、c4.53、cart二、集成树1、bagging:随机森林2、boosting:GBDT、XGBoost、lightGBM三、TreeSHAP

2022-02-09 17:18:44 1738

原创大数据基础二：spark原理和常见错误

一、spark原理参考：Hive on Spark调优_窗外的屋檐-优快云博客_spark.executor.instancesSpark资源参数调优参数_TURING.DT-优快云博客_spark 资源参数1、Job——对应action算子:包含很多task的并行计算，可以认为是Spark RDD 里面的action,每个action的计算会生成一个job。用户提交的Job会提交给DAGScheduler，Job会被分解成Stage和Task。2、Stage——对应Shuffl

2021-12-09 11:35:27 3370

原创 pyspark dataframe & pandas dataframe

pyspark创建的dataframe和普通pandasdataframe有很多容易使用上容易混淆的地方，特来梳理记录下。一、pandasdataframe特有的用法data1.show(行数) 展示表结构和数据二、pysparkdataframe特有的用法1、新增一列分配唯一切递增的iddf.withColumn('new_id',fn.monotonically_increasing_id()).show()三、两者相同用法的1、describe()2、head...

2021-12-07 20:22:54 2451

原创各种环境配置

1、shell文件指定python路径#!/bin/shexport PATH=/usr/local/anaconda3/bin:$PATHsource activate basesource ~/.bashrc2、python文件，pyspark执行python路径import osos.environ['PYSPARK_PYTHON'] = '/usr/local/anaconda3/bin/python3.6'

2021-11-26 18:36:20 126

原创工具类1:git常用操作

一、基本操作1、新建一个项目需要初始化才能有master分支git add .git commint -m 'xx'2、分支操作创建分支： git branch mybranch切换分支： git checkout mybranch查看本地/远程分支： git branch -a创建并切换分支：git checkout -b mybranch创建切换到分支并和远程分支建立联系 git checkout -b dev origin/dev删除本地分支：git branch -.

2021-11-03 22:26:40 387

原创大数据基础一：大数据组件

一、单机、集群、分布式1、单机一个系统业务量很小的时候所有的代码都放在一个项目中就好了，然后这个项目部署在一台服务器上就好了。整个项目所有的服务都由这台服务器提供。这就是单机结构。2、集群单机处理到达瓶颈的时候，你就把单机复制几份，这样就构成了一个“集群”。集群中每台服务器就叫做这个集群的一个“节点”，所有节点构成了一个集群。每个节点都提供相同的服务，那么这样系统的处理能力就相当于提升了好几倍（有几个节点就相当于提升了这么多倍）。3、分布式（微服务）分布式结构就是将一个完整的系统，按

2021-11-01 10:16:01 2258

原创 Hive SQL基本操作

添加分区ALTER TABLE table_name ADD PARTITION (dt = '2020-08-08') LOCATION '/user/hadoop/warehouse/table_name/dt=2020-08-08';一次添加多个分区ALTER TABLE table_name ADD PARTITION (dt = '2020-08-08') LOCATION '/user/hadoop/warehouse/table_name/dt=2020-08-08' PART

2021-10-22 20:28:01 1504

原创 CPU&GPU加速计算

1、CPU(Centrol Processing Unit)CPU上的大部分面积做了cache 和控制逻辑，天然适合做复杂串行程序；2、GPU(GraphicProcessing Unit):GPU有更多的晶体管用于数据处理，特别适用于解决并行计算的问题。可以使程序执行速度加快。为处理图形图像数据而产生的；天然适合做大吞吐量简单计算；3、GPU通过多个线程并行减少取数据的等待4、异构运算：cpu+gpu 结合1）cpu和gpu频繁通信的话，需要考虑两者的带宽（PCle B..

2021-10-13 11:32:12 2293

原创数据预处理

一、缺失值填充data= data.fillna(dict(zip(dense_columns, len(dense_columns) * [0.0]))).fillna(dict(zip(sparse_columns, len(sparse_columns) * [-1]))).replace('', '-1').replace('nan', '-1').replace('NULL','-1')PS：fillna处理的NaN也就是存在Hive表中的NULL，后面可以用replace对特定的缺失

2021-10-09 16:25:14 121

原创算法基础二：神经网络&深度学习进阶1

一、理念杂谈：1、两大主题：1）神经网络：一种受生物学启发的编程范式，能够让计算机从可观测数据中学习，模仿人类学习的过程；2）深度学习：用于神经网络学习的一套强大的技术；2、新的编程范式：神经网络是不同于以往的编程范式。传统的编程方法告诉计算机做什么，把大问题分解成许多小问题，明确任务，明确每一步，才能让计算机执行；神经网络不直接告诉计算机如何解决问题，而是让它从可观测的数据中学习，让它自己找出解决问题的方法。3、三代神经网络的发展1）感知机上世纪五六十年代、拥有输入层、输出层和一

2021-10-08 14:54:55 366

原创网络 HTTP协议

Tip1:HTTP简介1.定义：超文本传输协议（HyperText Transfer Protocol）是互联网上应用最为广泛的一种网络协议。所有WWW文件都必须遵守这个标准。基于TCP/IP协议。2.特点（1）支持客户/服务器模式（2）简单快速：只需要传输请求方法和路径。（3）灵活：HTTP允许传输任意类型的数据对象。（4）无连接：限制每次连接只处理一个请求。（5

2016-04-22 20:53:43 583

原创 IOS网络入门-Socket套接字

Tip1：网络基础1.计算机网络三部分组成：（1）资源子网：面向用户的部分，负责全网络面向应用的数据处理。（2）通信子网：负责数据通信（3）通信协议：通信双方必须遵守的规则和约定。2.分类：广域网、局域网3.网络体系结构OSI(Open System Interconnection)开放系统网络互联：（1）物理层：物理设备，原始比特流传输（2）数据链路层：网

2016-04-19 20:10:09 1463

TableView 控件仿QQ分组

TableView 分组显示内容，仿QQ好友列表，单击组头视图展开子单元格，再次单机收起子单元格，可独立运行

2016-03-29

解析城市列表 TableView

TableView 解析城市列表数据来源：Plist文件

2016-03-29

iOS 开发手势与触摸事件

手势与触摸事件，基本属性和方法

2016-03-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除