自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 2020研究生数学建模大赛B题交流群

2020-09-17 12:56:28 1704 1

原创 SQL学习笔记---基础内容

count函数不可用于where子句中1.查找薪水涨幅超过15次的员工号以及其对应的涨幅次数select emp_no , count(*) as t from salaries group by emp_no having t>15 ;select a.* from ( select emp_no , count(*) as t from salaries group by emp_no ) as a where t> 15;...

2020-05-17 08:54:02 691

原创 数据竞赛常用代码总结

箱型图异常值处理代码def outliers_proc(data,col_name,scale=3): def box_plot_outliers(data_ser,box_scale): iqr = box_scale*(data_ser*quantile(0.75)-data_ser*quantile(0.25)) val_up = data_ser.quantile(0.75)+...

2020-05-08 21:05:27 506

原创 seaborn库的简单使用

“”" seaborn库的简单使用技巧设置风格:1.sns.set:默认风格2.sns.set_style(“风格”):darkgrid、whitegrid、dark、white、ticks3.with sns.axes_style(“风格”)sns.color_palette() 调色板“”"变量分析:1.单变量直方图: sns.distplot(x,kde,bins,f...

2020-05-07 14:55:00 864

原创 matplotlib库的常见图像绘制

“”“绘制直方图plt”""for i in range(len(data.columns)): plt.hist(data[data.columns[i]].get_values()) plt.xlabel(data.columns[i]) plt.show() “”“绘制唯一值的条形图”""column_list = data.columns.toli...

2020-05-07 14:54:24 597

原创 数据分析学习笔记---碎片知识总结

解决juyter notebook中print时省略显示问题pd.set_option("display.max_columns",100) # 最大显示列数pd.set_option("display.max_rows",100) # 最大显示行数字体设置#1.1import matplotlibfont = {“family”:“MicroSoft YaHe...

2020-05-07 14:53:48 1298

原创 re正则模块基础知识

世界上只存在两种人:一种是会re正则的人,另一种是不会re的人。re基础知识Python的正则表达式的模块是"re"它的基本语法规则就是指定一个字符序列,比如你要在一个字符串s=’123abc456’ 中查找字符串 ’abc’,只要这样写:import res='123abc456eabc789're.findall(r'abc',s)#['abc', 'abc']这里用到的...

2020-05-04 20:26:00 1825

原创 数据分析方法论

1.七何分析法:又称5W2H分析法1.why---------------------------什么原因2.what--------------------------什么事情3.who---------------------------是什么人4.when--------------------------什么时间5.where-------------------------什...

2020-05-04 17:18:46 172

原创 时间序列数据的常见处理处理

“”" 时间序列数据的处理 “”"平稳性:即要求经由样本时间序列所得到的拟合曲线,在未来的某一段时期内仍能顺着现有的形态惯性的延续下去。date_range:可以指定时间和周期 H、D、M例:rng = pd.date_range(“2017/7/1”,periods=10,freq=“3D”)time = pd.Series(np.random.randn(20),index=pd...

2020-05-04 15:07:52 2216

原创 jieba分词结合wordcloud绘制词云图实战

词云图小项目实战jieba分词系列以及wordcolud词云图分析lcut:为精确模式,返回的是一个列表cut:添加参数cut_all=False才为精确模式,返回的是一个迭代器wordcolud为自己统计词频,并且绘制出词云图,可以加载停用词表。jieba.cut和jieba.cut_for_search返回的是一个可迭代的generator(即迭代器),用for循环后来获取分词后的词...

2020-05-03 18:51:07 1097

原创 网路爬虫基础知识

网络爬虫基础知识1.介绍几个基础概念网络爬虫:爬虫是一个模拟让人类请求网站行为的程序,可以自动请求网页,并把数据爬取下来,然后使用一定的规则提取有价值的数据。HTTP协议:即超文本传输协议,是一种发布和接收HTML页面的方法,服务器的端口号为80端口。url详解:统一资源定位符结构如下所示:scheme://host:port/path/?query-string=xxx#anchor...

2020-05-02 19:02:19 879

原创 Markdown的简单使用方法

Markdown的使用方法简介本文只涉及最基本的部分1. 关于字体字号的变化1.加粗 两个星号2.斜体 一个星号表示斜体3.斜体加粗 三个星号就是斜体加粗2.语法高亮两个等号即可设置语法高亮----------”== 文字描述==“上下标问题:1上标:我是上标 ----------用两个“^ ^"即可,两个小弯弯。若是使用的Typr...

2020-04-29 22:19:34 448

原创 github学习笔记

本文主要参考b站上面的教程学习github的初级使用方法,大佬请绕道1.基本概念仓库(repository):仓库是用来存放项目代码的,每个项目对应一个仓库,多个开源项目则有多个仓库。复制克隆项目(fork):该fork的项目是独立存在的。发起请求(pull request):当fork后,对其进行改进,改进之后发起给原作者看他要不要考虑改进一下。关注(watch):关注项目,当项目更新...

2020-04-29 17:22:10 252

原创 模型调参部分

模型调参:经过前面的缺失值、异常值得处理以及特征工程的构建,选择了模型进行训练以后,就可以开始进行寻训练模型。虽然说特征工程才是真正决定一个模型最终的预测能力,但是一个优秀的调参也是很重要的一部,可以在一定程度上提高预测能力,避免一定程度的过拟合。本次主要使用xgb进行模型训练,使用sklearn中的gridsearchcv进行模型调参,提高调节合适的参数来 进一步拟合模型。对于xbg模型来说...

2020-04-01 14:32:43 230

原创 特征工程部分

特征工程部分:根据已有的论坛代码进行简单的尝试后发现,分数都在600多左右。所以自己再重新回顾了整个流程,对于特征工程部分,最重要的有一下几点:1.查看因变量中的离群点通过散点图或者箱线图之类的发现数据中的异常点,特别是对99999这种超级异常点,通过散点图发现,有bodtyType为4的车的价格为99999,像这种结合实际可以发现,肯定不符合典型情况,可以取该类型的平均值进行替换,其他离群...

2020-03-28 13:28:19 139

原创 二手车价格预测的EDA探索性数据分析

探索性数据分析可以分为以下几个方面:1.数据预览主要通过df.head(),简单查看数据的各列信息。2.查看数据的基本信息通过df.info()查看数据的数据类型,df.describe()发现数据的分布特征,主要是查看其数值型自变量的均值方差情况,对于方差变化小的特征特别留意,因为很可能是模型无法识别这类特征。通过极值情况发现数据是否存在异常值。3.处理缺失值和异常值当缺失值的数量小...

2020-03-24 10:22:35 234

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除