自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 python排序方法-插入排序,归并排序,希尔排序,计数排序

使用python实现4种in-place排序算法分别实现了插入排序,归并排序,希尔排序,计数排序四种排序算法class Solution: # 插入排序 --前半部分已排好顺序,后半部分未排序 # 当前元素依次向前面已排好顺序中插入 def insert_sort(self,nums): for i in range(len(nums)): tmp = nums[i] preindex = i-1

2020-11-26 21:28:42 154

原创 天池-资金流入流出预测-总结

通过本次学习,总结一下过程中的收获,熟悉了数据挖掘的流程,完整学习了数据的探索性分析、特征工程、模型构建过程,但同样学习时间比较短,学到的内容还是比较基础的;1.探索性数据分析:可以通过数据分析看到整体数据布局,为后续特征处理提供很好的思路,在本次学习中,我最大的收获是对节假日节点的数据分析,拓了解了对细节的分析方法,通过异常点去找分析产生的原因;2.特征工程:通过特征工程的简单构造,了解了一般特征构造的流程,在学习中发现特征工程的处理需要有一定的代码能力,在代码能力上还是有所欠缺;其次是通过学习,知道

2020-08-25 21:56:21 437 1

原创 天池 - 资金流入流出预测-特征构建及模型预测

学习资料:https://github.com/ChuanyuXue/The-Purchase-and-Redemption-Forecast-Challenge-baseline本次学习总结:1.特征处理方法的简单归纳:简单转换、聚合特征、描述性统计量特征、时间特征等,且特征处理一般是根据数据分析和探索结果进行处理,因此在做特征工程前,进行EDA是十分必要的2.利用时间序列的特征进行特征构造,如使用周期因子、及时间序列的波峰波谷信息进行特征构造3.模型融合方面:由于时间关系,只是简单看了一些

2020-08-24 21:51:36 447

原创 天池 - 资金流入流出预测-基于周期因子的时间序列预测

学习资料:https://github.com/ChuanyuXue/The-Purchase-and-Redemption-Forecast-Challenge-baseline之前接触的时间序列,一般是使用ARMA模型进行预测,基于周期因子的方法,是第一次接触到,经过两天的简单沉淀下学习心得:1.使用前提:数据可以有周期性,但总体趋势需要相对平稳(时间从14年3月开始使用的原因)2.该方法的核心是周期因子和base值:周期因子的一般计算方法根据历史数据计算每天(周一至周日的维度)的均值,再

2020-08-22 20:35:05 683

原创 天池 - 资金流入流出预测-数据EDA学习

赛题https://tianchi.aliyun.com/competition/entrance/231573/introduction?spm=5176.12281973.1005.2.3dd52448gqgUMS学习资料https://github.com/ChuanyuXue/The-Purchase-and-Redemption-Forecast-Challenge-baseline1.在学习探索性数据分析这个PPT前,大致设想了要分析的点:①申购与赎回的总体分布趋势,以及其相关性

2020-08-20 18:19:01 337

原创 leetcode探索-二叉树-运用递归解决树的问题(2)

'''Created on Tues Jun 23 2020@author: LjhLanguage: python'''1.二叉树的最大深度题目:给定一个二叉树,找出其最大深度。二叉树的深度为根节点到最远叶子节点的最长路径上的节点数。(说明: 叶子节点是指没有子节点的节点。)方法一:递归class Solution: def maxDepth(self, root: TreeNode) -> int: if not root: return 0

2020-06-23 09:51:36 160

原创 leetcode探索-二叉树-树的遍历(1)

'''Created on Mon Jun 22 2020@author: LjhLanguage: python'''1.二叉树的前序遍历题目:给定一个二叉树,返回它的前序遍历方法一:递归#递归方式:根左右class Solution: def __init__(self): self.res = [] def preorderTraversal(self, root: TreeNode) -> List[int]:

2020-06-22 17:00:06 148

原创 机器学习之聚类分析

聚类的核心是相似度或距离,聚类分析中有多种计算距离和相似度的定义;闵可夫斯基距离:d = [ Σ(xi - xj)^p ] ^(1/p) p为大于1的数python实现为:import numpy as np dt = np.random.rand(10).reshape(2,5)MinKow_len = 0p = 10 #可自行定义for j in range(len(dt...

2020-01-06 18:01:46 315

原创 机器学习之决策树

ID3算法ID3算法是使用信息增益选择测试属性,信息熵是度量样本集合程度的常用指标,事件a的信息量I(a)可定义为:I(a) = p(a)log(1/p(a)) ,其中p(a)表示事件发生的概率;CART决策树...

2019-12-31 16:34:43 115

原创 机器学习之线性回归

主要是对吴恩达机器学习的视频来学习,学习了线性回归内容,总体进行复盘总结;1、一元线性回归回归模型是表示输入变量到输出变量之间映射的函数,回归问题等价于函数拟合,回归函数的求解最常用的代价函数是平方损失函数,平方损失函数可以用最小二乘法进行解决,本例中使用梯度下降法进行处理;梯度下降法:优点:可以处理复杂的目标函数缺点:如果代价函数不是凸函数,则容易得到局部最优解学习率的选择,过小导致收...

2019-12-29 14:13:14 118

原创 机器学习之模型评估与选择

1.误差及拟合训练误差:通过训练集训练出的模型,在训练集上的预测输出与实际值之间的误差;泛化误差:模型在测试集上的误差;训练集用来训练模型,测试集用来验证模型的准确性;一般会把样本7:3区分成训练集和测试集,普遍情况下,判断一个模型是否优秀,不是看在训练集上的表现,更多的是看模型在测试集上的表现,即模型的泛化能力;而模型的过拟合和欠拟合一般都会导致泛化性能的下降过拟合:把只适用于训练集的特征...

2019-12-06 10:04:04 189

原创 python自动发送邮件

本次文章主要是通过python监控ETL流程的运行情况;ETL流程如成功,会将同步时间更新到数据库里去,失败的话时间不会更新,因此本次尝试中首先第一步是使用python连接oracle数据库,比较麻烦的是数据库是32位的,之前的python版本都是64位的,版本兼容的问题困扰了比较久,最后下载了32位的python,使用pycharm切换python环境;本次尝试主要分三步:1.使用pyth...

2019-12-02 15:23:10 238

原创 数据分析python基础算法

按计划本周的学习计划是python语法的练习,在之前的工作经验中,有一定的python编程基础,本周通过python实现排序算法来复习python,一方面巩固编程能力,另一方面加强算法基础;1.冒泡排序:冒泡排序是相对比较简单的排序算法,原理是依次比较数组中的元素,大的下沉,小的上浮,伪代码为for i in range(len(nums)): for j in range(len(...

2019-12-02 15:06:43 244

原创 数据分析数学基础

数据分析小白自我学习第一周数学基础:概率论1.随机试验:随机试验是一个过程,这个过程的结果是确定的,在每一次重复试验中,同一个结果出现的概率是相同的;如果把抛硬币当做一个随机试验,这个试验的结果是确定的,只会出现正面向上或者反面向上两种情况,而在每一次的试验中,正面向上的概率均是1/2;2.期望:实验中每一项结果出现的概率与出现的数量相乘的累加,如抛硬币的数学期望就是13.方差:主要是表示...

2019-11-22 19:30:32 526

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除