- 博客(87)
- 资源 (3)
- 收藏
- 关注

原创 线性回归、Lasso回归、岭回归预测北京PM2.5浓度
一、项目背景北京PM2.5浓度回归分析训练赛1.数据 数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据。 数据分为训练数据和测试数据,分别保存在pm25_train.csv和pm25_test.csv两个文件中。其中训练数据主要包括35746条记录,13个字段,主要字段说明如下:date:观测数据发生的日期(年-月-日)hour:观...
2019-12-26 17:46:24
6118
5

原创 KMeans算法项目实战:航空公司客户价值分析
一、背景与目标 通过对客户进行分类,区分无价值客户、高价值客户,企业针对不同价值的客户制定优化的个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值用户,实现企业利润最大化目标。数据为某航空公司的用户档案信息与航班记录。字段名称字段说明MEMBER_NOFFP_DATE...
2019-10-30 16:25:24
5385
6

原创 解决Pandas的to_excel()写入不同Sheet,而不会被重写
在使用Pandas的to_excel()方法写入数据时,当我们想将多个数据写入一个Excel表的不同DataFrame中,虽然能够指定sheet_name参数,但是会重写整个Excel之后才会存储。import pandas as pd 现在我有三个DataFrame,分别是大众某车型的配置、外观和内饰数据。现在我想要将这三个DF存入一张表的不用sheet中>>> ...
2019-09-12 11:55:40
40234
14
原创 聚类分析
聚类是数据挖掘和计算的基本任务,是**将大量数据集中具有"相似"特征的数据点或样本划分为一个类别**。聚类分析的基本思想是"物以类聚,人以群分",因此大量的数据集中必然存在相似的数据样本,基于这个假设就可以将数据区分出来,并发现不同类的特征。
2020-08-10 22:11:33
4869
原创 数据预处理Part9——数据降维
维度指的就是样本的数量或者特征的数量。一般无特别说明,指的都是特征数量。降维算法中的降维,指的就是降低特征矩阵中特征的数量。
2020-06-06 23:15:19
4282
原创 数据预处理Part6——数据抽样
样是从整体样本中通过一定的方法选择一部分样本。抽样是数据处理的基本步骤之一,也是科学实验、质量检验、社会调查普遍采用的一种经济有效的工作和研究方法。
2020-06-02 14:36:13
3959
原创 数据预处理Part2——数据标准化
数据标准化是一个常用的数据预处理操作,目的是将不同规格的数据转换到统一规格或不同分布的数据转换到某个特定范围,以减少规模、特征、分布差异等对模型的影响。
2020-05-24 18:35:44
7370
1
原创 数据预处理Part1——数据清洗
在数据清洗过程中,主要处理的是**缺失值**、**异常值**和**重复值**。所谓清洗,是对数据集通过丢弃、填充、替换、去重等操作。达到去除异常、纠正错误、补足缺失的目的。
2020-05-22 14:48:54
45234
7
原创 LeetCode(Python实现)——Easy部分【Day6】
文章目录69. x 的平方根问题描述:解题思路代码实现70. 爬楼梯问题描述:解题思路代码实现83. 删除排序链表中的重复元素问题描述:解题思路代码实现69. x 的平方根问题描述:实现 int sqrt(int x) 函数。计算并返回 x 的平方根,其中 x 是非负整数。由于返回类型是整数,结果只保留整数的部分,小数部分将被舍去。示例 1:输入: 4输出: 2示例 2...
2020-05-07 23:54:50
234
原创 LeetCode(Python实现)——Easy部分【Day3】
文章目录26. 合并两个有序链表问题描述:解题思路:代码实现:27. 移除元素问题描述:解题思路:代码实现:26. 合并两个有序链表问题描述:给定一个排序数组,你需要在 原地 删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在 原地 修改输入数组 并在使用 O(1) 额外空间的条件下完成。 示例 1:给定数组 nums = [...
2020-04-26 23:00:02
268
原创 LeetCode(Python实现)——Easy部分【Day2】
文章目录13. 罗马数字转整数问题描述:解题思路:代码实现:14. 最长公共前缀问题描述:解题思路:代码实现:解题思路2:代码实现2:20. 有效的括号问题描述:解题思路:代码实现:13. 罗马数字转整数问题描述:罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。字符 数值I 1V 5X ...
2020-04-24 23:52:20
448
原创 LeetCode(Python实现)——Easy部分【Day1】
文章目录1. 两数之和问题描述:解题思路:代码实现:7. 整数反转问题描述:解题思路:代码实现:9. 回文数问题描述:解题思路:代码实现:1. 两数之和问题描述:给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。 示例:给定 nums ...
2020-04-23 17:13:30
345
原创 机器学习系列——决策树(一)
决策树决策树是一种非参数的有监督学习方法。他能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题
2020-03-31 22:58:47
699
原创 pandas处理Excel中的列转行
问题描述:在数据处理过程中,我们有时会遇到数据并不是我们想要的格式,比如给的数据表是这样的:然而我们需要的格式是这样的:这时,我们可以使用set_index()+stack()进行列转行:...
2020-03-10 13:06:04
1435
原创 如何提高爬虫的性能?
文章目录一. 基础理论1. 进程与线程2. 进程与线程的使用场景二. 代码实现1. 准备工作2. 单线程抓取3. 多线程抓取4. 多进程抓取一. 基础理论1. 进程与线程什么是进程?什么是线程?百度百科中是这样解释的:进程(Process)是计算机中的程序关于某数据集合上的一次运行活动,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。程序是指令、数据及其组织形式的描述,进程是程...
2020-03-10 12:40:45
681
原创 深入理解线性回归与岭回归(数学推导)
线性回归推导1. 回顾 对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn)。对于平面中的这n个点,可以使用无数条曲线来拟合。要求样本回归函数尽可能好地拟合这组值。综合起来看,这条直线处于样本数据的中心位置最合理。 选择最佳拟合曲线的标准可以确定为:使总的拟合误差(即总残差)达到最小。有以下三个标准可以选择:用“残差和最小”确定直线位置...
2020-01-07 17:59:15
2451
6
原创 将Excel中的图片链接替换为图片
使用前提:第一行不能是合并单元格,openpyxl处理会出现问题openpyxl version > 3.0如果图片地址不是以.jpg结尾,需要更改requests部分代码from openpyxl import load_workbookfrom openpyxl.drawing.image import Imageimport requestswb =load_wo...
2019-12-18 18:12:55
4625
3
转载 数据可视化工具大全
转自:Alfred数据室原文地址:好看的数据可视化的图片是怎么样做的? - Alfred数据室的回答 - 知乎1. 动态条形图工具1.1 Flourish Flourish是一个在线数据可视化网站,可以快速地把表格数据转换为各种各样好看的图表,并且,它提供的Bar Chart Race(动态条形图)有一套完整的参数让我们可以绘制出自己想要的动态条形图。 除此之外,它还可以用于绘制其...
2019-12-18 11:33:10
2909
原创 线性回归实例-----预测鲍鱼年龄
预测鲍鱼年龄前言 线性回归是监督学习的一个方向,用来预测连续的数值型数据。比如房价预测、销量预测等等。优点:计算简单,易于理解缺点:只使用与线性数据,对于非线性数据使用非线性回归模型使用条件:连续的数值型数据实战:预测鲍鱼年龄1.数据源 &emsp本文使用的数据源是从UCI数据库中获取。UCI数据库是有个常用的标准测试数据集。下载地址:https://archive...
2019-12-05 13:56:51
6299
原创 %matplotlib inline在Jupyter中到底有什么用?
%matplotlib inline在Jupyter中到底有什么用?前言 在Jupyter Lab 或者 Jupyter Notebook中,当我们需要进行可视化时,我们需要引入matplotlib 包进行画图。一般我们会在引入的同时直接运行魔法命令%matplotlib inline。其实,不需要这段代码Matplotlib也能正常工作。那么%matplotlib inline到底激活了什...
2019-12-03 16:16:48
2412
原创 会员数据化运营(一)
会员数据化运营1.概述 会员数据化运营几乎是所有企业的必备运营工作,企业要生存必须有会员(客户)。会员数据化运营辅助于客户关系管理(CRM),可以用来解决以下问题:企业的生命周期状态是什么?企业的核心诉求是什么?会员的转化习惯和路径是什么?会员的价值如何?如何扩大市场覆盖、获得更多的新会员?如何更好的维系老会员?应该在什么时间、采取何种措施、针对哪些会员做哪些运营活动?在特...
2019-11-28 10:58:00
2245
原创 Python获取给定时间段内的每月第一天以及最后一天
背景需要2016年至2019年每个月的月初及月末,比如这样:(‘2016-01-01’, ‘2016-01-31’),(‘2016-02-01’, ‘2016-02-29’),(‘2016-03-01’, ‘2016-03-31’),(‘2016-04-01’, ‘2016-04-30’),(‘2016-05-01’, ‘2016-05-31’),(‘2016-06-01’, ‘2...
2019-11-06 14:01:56
3996
流畅的Python.pdf
2019-06-21
Python数据科学手册.pdf
2019-06-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人