A叶子叶
大数据平台、数据仓库、数据分析/挖掘、应用开发、深度学习、爬虫
展开
-
数据挖掘算法和实践(二十七):Python基础知识再整理
磨刀不误砍柴工,python刷题比java写起来更得心应手,语言越高级,底层细节越隐晦,再系统记录一下,方便后续查找;原创 2021-03-17 19:38:00 · 7167 阅读 · 11 评论 -
数据挖掘算法和实践(二十九):sklearn包使用快速查询
这里是xmind转成的图片,可以直接下载ximind,地址:sklearn常用方法检索原创 2021-06-13 13:19:28 · 880 阅读 · 2 评论 -
数据挖掘算法和实践(二十八):如何选择最优算法
通常每个算法都有最佳的应用场景,大部分情况下我们可以采用循环遍历方法找到最优的那个算法(默认参数),然后进行调参使其准确率更高,本次例子依然采用最经典的kaggle的离职率分析的数据集,跟之前的案例相比其数据探索思路也不同;数据集地址:离职率分析数据集原创 2021-06-13 08:41:29 · 1214 阅读 · 1 评论 -
数据挖掘算法和实践(二十六):DataFrame的常用方法温故
最近在完成一个分类模型在使用dataframe使用还有一些不是得心应手的地方,这里再次系统地总结dataframe使用以及数据探索、建模过程中的疑惑;DataFrame中groupbygroupby函数有很多妙用,从数据库得到的要分析的数据必然是粗粒度的数据,pandas提供类似于sql语句的工具进行数据分析和挖掘,再结合seaborn的作图包,做数据探索和分析就很美妙,看个例子:data['Current_Status'] = data['left'].apply(lambda x: 'Stay.原创 2021-06-04 16:59:59 · 905 阅读 · 3 评论 -
数据挖掘算法和实践(二十四):CrossValidation交叉验证及模型选择
> 主要是在模型训练阶段的知识,及其常见的交叉验证/CV在样本集选择和模型构建中的作用;## 关于正负样本比例在二分类中一般是1:3的正负样本比例状态;## 训练集、测试集、验证集比例三个概念容易混淆,得到正负样本后合并数据集然后按照8:2的比例把20%数据放在一边(即是测试集),剩下80%数据进行建模(训练集+验证集),开始进行模型构建必然要进行训练集和验证集的拆分,可以用K折法均分成K份分别进行建模,每次建模都会产生(k-1)份的真实训练集和1份真实验证集,然后求平均得到该模型的平均准确率,固原创 2021-06-03 11:10:03 · 957 阅读 · 2 评论 -
数据挖掘算法和实践(二十五):分类模型的评估方法
分类模型的评估方法内容包括常见二分类模型的分类效果评估方法,包括绝对指标、相对指标、通用指标,衍生到多分类模型的处理及验证,最后鸢尾花的三分类模型实例,附带有基于OVO和OVR的其他分类模型代码;一、什么是分类模型?分类模型是监督学习的一种,需要样本支撑进行模型构建,其输入可以是连续性也可以是离散型的变量,输出则是提前限定的离散分类标签,在实际使用中根据分类标签的种类可以分为二分类和多分类问题。回归算法的策略函数多是均值方差最小,分类算法的策略函数比较多样,有纯线性代数层面的均值方差最小,也有纯原创 2021-06-01 11:17:18 · 1292 阅读 · 7 评论 -
2020天池大数据-智慧海洋建设方案赛分享
初赛(2020年1月2日—2020年2月21日),复赛(2020年2月25日—2020年3月22日),baseline准确度0.7843,太低~,这个题目围绕“智慧海洋建设,赋能海上安全治理能力现代化”。要求选手通过分析渔船北斗设备位置数据,判断出是拖网作业、围网作业还是流刺网作业。其实总结就是“轨迹(序列数据)+多分类”的任务,比较常规,主要还是特征提取和处理上面,复杂的在于位置信息处理;原创 2021-01-28 21:06:10 · 7261 阅读 · 10 评论 -
数据挖掘算法和实践(二十三):XGBoost集成算法案列(鸢尾花数据集)
本节继续探讨集成学习算法,上一节介绍的是LGB的使用和调参,这里使用datasets自带的鸢尾花数据集介绍XGB,关于集成学习算法的介绍可以参考:数据挖掘算法和实践(十八):集成学习算法(Boosting、Bagging),XGB和LGB都是竞赛和真实场景用得很多的算法,这里详细分析XGB调参和特征选择;一、引包与加载数据import timeimport numpy as npimport xgboost as xgbfrom xgboost import plot_importan..原创 2021-01-23 17:24:46 · 6546 阅读 · 10 评论 -
数据挖掘算法和实践(二十二):LightGBM集成算法案列(癌症数据集)
本节使用datasets数据集中的癌症数据集使用LightGBM进行建模的简单案列,关于集成学习的学习可以参考:数据挖掘算法和实践(十八):集成学习算法(Boosting、Bagging),LGBM是一个非常常用算法;一、引入常用包import datetimeimport numpy as npimport pandas as pdimport lightgbm as lgbfrom sklearn.datasets import load_breast_cancerfrom sk.原创 2021-01-23 17:12:20 · 9320 阅读 · 1 评论 -
数据挖掘算法和实践(二十一):kaggle经典-职场离职率分析案例解读
本节使用kaggle经典数案例一起学习数据挖掘流程和工具使用,使用决策树和随机森林预测员工离职率,帮助人事部门理解员工为何离职, 预测员工离职的可能性,数据来源: kaggle数据集地址 使用jupyterlab,能够保存中间结果并且流程较清晰,小数据集可以考虑使用,但从模块化思想来看可以用VsCode和其他工具,一如既往首先引入需要的包,这里plot和seaborn都引入了,plot更偏底层可以定制化作图,seaborn作图更方便和炫酷但定制化作图能力弱,想了解seaborn作图包可以参照之前原创 2021-01-19 20:19:54 · 8093 阅读 · 7 评论 -
数据挖掘算法和实践(二十):sklearn中通用数据集datasets
作为数据挖掘工具包sklearn不但提供算法实现,还通过sklearn.dataset模块提供数据集使用,根据需要有3种数据集API接口来获取数据集,分别是load,fetch,generate,load提供常用玩具数据集,fetch提供大型数据集,generate可以根据需要定制化生产数据集;原创 2021-01-18 10:12:00 · 5705 阅读 · 0 评论 -
数据挖掘算法和实践(十九):特征工程/模型评估
前面基本上涵盖常规数据分析算法内容,模型评估完成对模型的打分和选择,在模型评估过程中, 分类问题、 排序问题、 回归问题往往需要使用不同的指标进行评估。 在诸多的评估指标中, 大部分指标只能片面地反映模型的一部分性能。 如果不能合理地运用评估指标, 不仅不能发现模型本身的问题, 而且会得出错误的结论。原创 2021-01-18 10:07:50 · 5902 阅读 · 10 评论 -
数据挖掘算法和实践(十八):集成学习算法(Boosting、Bagging)
之前主要介绍单机器学习算法的理解和使用,实际场景多使用集成学习即组合的挖掘算法以达到最优效果,集成学习有2种:Boosting和Bagging,前者通过多个串行的弱学习器得到强学习器(GBDT、XoostGB、LightGBM),后者通过并行的多个决策树投票实现最优模型(随机森林RF),在竞赛中一般直接使用集成学习,因为可以最大程度地保证模型性能;原创 2021-01-15 16:33:48 · 5967 阅读 · 3 评论 -
数据挖掘算法和实践(十七):常用数据挖掘算法的Xmind总结
稍微整理的一个小知识总结,对于算法的简单总结,借鉴意义不大,算法还是多用多理解;原创 2021-01-15 16:14:55 · 5671 阅读 · 4 评论 -
数据挖掘算法和实践(十五):数据挖掘流程方法论
很久之前总结的,数据挖掘流程方法论,标准流程是:数据准备-->数据分布探索-->数据预处理-->特征工程-->模型的构建-->模型的优化和调参-->模型的发布,不论采用什么框架基本流程是不会有差别的;原创 2020-12-02 11:45:11 · 5578 阅读 · 2 评论 -
python爬虫(三):爬虫常用工具包
上一篇爬取bilibili的弹幕进行图云展示,是数据爬取+数据展示结合的范例,这里将介绍爬虫的常用工具;常用工具数据爬取的3个步骤:下载数据---解析数据---分析数据,里面用到一些常用工具,requests是下载url内容,正则表达式、beautifulsoup和lxml是对html文档解析快速定位想要的内容,tqdm能够显示处理进度,ffmpy处理图像和视频流,matplotlib和seaborn对数据化; Requests requests包提供针对URL的get、put、pos.原创 2020-06-10 16:27:55 · 11003 阅读 · 1 评论 -
python爬虫(二):爬取B站《夏洛特烦恼》字幕,词云展示
前面说过爬虫无非是文本、图片、音频,难度依次上升,虽然爬取数据的步骤是固定的,但是细节上的处理逻辑可能不同,比如html的解析方式、反爬取的手段、分布式爬取等,本文介绍最简单文本的爬虫方式,结合数据分析和可视化能力,争取能够做到一站式数据爬取、分析、可视化,奥利给。...原创 2020-06-05 16:10:54 · 7322 阅读 · 0 评论 -
数据挖掘算法和实践(十四):kaggle上搭建卷积神经网络(CNN)实现fashion_MNIST
卷积神经网络 CNN(Convolutional Neural Network)是一种前馈型的神经网络,通过卷积运算识别图像边缘和纹理,再通过不断的卷积提取出抽象的特征,最终实现图像识别,其在大型图像处理方面有出色的表现,广泛应用到图像分类、定位等领域中,相比于其他神经网络结构,卷积神经网络需要的参数相对较少,被广泛应用。1、CNN网络的一般架构卷积层完成数据的边缘和纹理分析,提取图像特征,假如使用3×3的卷积核对图像进行处理,9个像素点会被转换成1个像素点,非线性变换层即是神经元的激活层..原创 2020-06-02 17:24:26 · 6630 阅读 · 0 评论 -
数据挖掘算法和实践(十三):使用tf.data.DataSet模块处理数据
类似于numpy中的ndarray数据类型和数据操作,TensorFlow提供了tf.data.DataSet模块,方便地处理数据输入、输出,支持大量的数据计算和转换,tf.data.DataSet中是一个或者多个tensor对象。一、DataSet的创建:直接从tensor创建tf.data.DataSet,使用tf.data.DataSet.from_tensor_slices()函数,函数参数可以是python自带数据类型list,或者numpy.ndarray:# 可以从list,.原创 2020-06-02 11:53:32 · 6120 阅读 · 1 评论 -
数据挖掘算法和实践(十二):使用tf.keras实现fashion_MNIST图像分类
fashion_MNIST是一个手写图像分类数据集,主要是一些穿衣搭配的图表,数据集比较小,是一个适合练手的数据集,也是第一个多分类实例,使用softmax损失函数进行训练;softmax保证输出的分类是一个概率,且所以分类的概率结果加起来是1;本次是首次使用图像数据集,一般需要采用卷积神经网络进行数据的特征提取,本次的数据集本身就是一些带有特征的数据(图像的边界比较清晰),先不使用卷积网络而是直接训练,比如下面的高跟鞋,数据集的特征边界很明显:实现如下:from __future_..原创 2020-05-28 09:10:43 · 6171 阅读 · 0 评论 -
数据挖掘算法和实践(十一):keras实现逻辑回归分类(鸢尾花数据集)
使用keras实现鸢尾花的分类,先转换成二分类问题;如下:from __future__ import absolute_import, division, print_functionimport tensorflow as tfimport numpy as npimport seaborn as snsimport pandas as pdrng = np.randomimport matplotlib.pyplot as plt%matplotlib inlineba.原创 2020-05-28 08:55:02 · 6510 阅读 · 0 评论 -
数据挖掘算法和实践(十):TensorFlow和keras如何实现线性回归LinearRegression
从实践出发学习TensorFlow和teras机器学习框架;from __future__ import absolute_import, division, print_functionimport tensorflow as tfimport numpy as nprng = np.random# Parameters.learning_rate = 0.01training_steps = 1000display_step = 50# Training Data.X =.原创 2020-05-22 17:38:03 · 5623 阅读 · 0 评论 -
数据挖掘算法和实践(九):关联规则 Apriori
关联规则挖掘让我们可以从数据集中发现项与项之间的关系,它在我们的生活中有很多应用场景,“购物篮分析”就是一个常见的场景,这个场景可以从消费者交易记录中发掘商品与商品之间的关联关系,进而通过商品捆绑销售或者相关推荐的方式带来更多的销售量,首先需要理解: 几个重要概念:支持度、置信度、提升度 Apriori 算法的工作原理 在实际工作中,我们该如何进行关联规则挖掘 关联规则中重要的概念举一个超市购物的例子,下面是几名客户购买的商品列表:订单编号 购买商品 ...原创 2020-05-18 09:01:43 · 5494 阅读 · 1 评论 -
数据挖掘算法和实践(八):K-means 聚类(西瓜数据集)
之前章节讲到的算法都是有监督学习方法, 在建模之前需要训练(样本)数据集,模型根据样本数据集的结果,训练得到某些参数,形成分类器。无监督学习没有训练数据集,在数据集上根据某种规则完成模型建立;所谓物以类聚-人以群分,“类”指的是具有相似性的集合,聚类是指将数据集划分为若干类,使得各个类之内的数据最为相似,而各个类之间的数据相似度差别尽可能的大。聚类分析就是以相似性为基础,在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性。对数据集进行聚类划分,属于无监督学习。K-Means是最常.原创 2020-05-13 14:25:02 · 8255 阅读 · 0 评论 -
数据挖掘算法和实践(七):集成学习
集成学习是通过构建并结合多个学习器来完成学习任务,如下图,集成学习通过将多个学习器结合,获得比单一学习器显著优越的泛化性能。集成学习分为同质集成和异质集成,如果个体学习器全是一种算法称为同质集成,如果由不同算法生成,称为异质集成。基学习器是对于同质集成说的。要获得好的集成,个体学习器应该“好而不同”。如下图,图1中每个分类器只有66.6%的精度,集成之后精度为100%,图2中集成之后性...转载 2020-04-30 09:44:13 · 5805 阅读 · 0 评论 -
数据挖掘算法和实践(六):seaborn数据可视化探索(tips 数据集)
seaborn是一个面向对象作图工具,直译是海洋生物,tips 是小费数据集,本次使用seaborn学习数据分布的探索,在遇到新的数据集合时候,分析问题不至于无从下手;关于使用seaborn,参考官网 http://seaborn.pydata.org/index.htmlimport seaborn as snsimport pandas as pd import matplotl...原创 2020-04-29 09:10:28 · 9200 阅读 · 2 评论 -
2016kaggle大数据比赛:泰坦尼克号titanic的乘客生存预测模型剖析
titanic乘客的生存预测是数据挖掘的入门级实例,根据船上乘客的多维特征预测事故发生后乘客的生还几率,属于监督学习中典型的分类问题。本文结合对数据挖掘流程的理解和经典案列,呈现数据挖掘过程。该模型属于监督学习,需要训练集和数据集:数据集地址:https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic该文章...原创 2020-04-26 18:10:58 · 6771 阅读 · 1 评论 -
数据挖掘算法和实践(四):支持向量机(iris鸢尾花数据集)
支持向量机同样是一种分类算法,可以理解是一种“降维打击”,比较晦涩难懂;原创 2020-04-26 17:46:45 · 8293 阅读 · 1 评论 -
数据挖掘算法和实践(三):朴素贝叶斯(mushrooms蘑菇数据集)
朴素贝叶斯同样是一种常用的分类算法,经常用于垃圾邮件分类中,该算法依据概率论中朴素贝叶斯定理建立模型,前提是假设各个特征之间相互独立,其数学原理很容易理解:如果你看到一个人总是做好事,则会推断那个人多半会是一个好人。这就是说,当你不能准确判断时候,可以依靠事物特定本质相关的事件出现的多少(概率)作为判断依据,贝叶斯定理:该公式表示在B发生的条件下A发生的条件概率,等于A事件发生条件下B事件...原创 2020-04-26 17:43:54 · 8556 阅读 · 2 评论 -
数据挖掘算法和实践(二):决策树(iris鸢尾花数据集)
决策树是直观运用概率分析的树形分类器,是很常用的分类方法,属于监管学习,决策树分类过程是从根节点开始,根据特征属性值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。比如说买瓜的时候,根据瓜的某些特征属性直观判断瓜的好坏,下图依次根据纹理清晰度、根蒂、色泽、触感4个进行分类,生活中我们会将某个最重要或最明显的分类属性放在第一位,然后是次重要属性,这很符合我们平常的判断思维,这就...原创 2020-04-26 14:39:03 · 12335 阅读 · 0 评论 -
数据挖掘算法和实践(一):线性回归和逻辑回归(house_price数据集)
数据挖掘算法基于线性代数、概率论、信息论推导,深入进去还是很有意思的,能够理解数学家、统计学家、计算机学家的智慧,这个专栏从比较简单的常用算法入手,后续将研究基于TensorFlow的高级算法,最好能够参与到人脸识别和NLP的实际项目中,做出来一定的效果,希望能坚持。一、理解线性回归模型首先讲回归模型,回归模型研究的是因变量(目标)和自变量(预测器)之间的关系,因变量可以是连续也可以离散,...原创 2020-04-24 10:10:15 · 6281 阅读 · 0 评论 -
Jupyter notebook修改默认打开路径
jupyter notebook和jupyter lab是常规数据分析的主要工具,能够保存中间数据探索结果和图片,非常的只管,notebook打开默认是在c盘的当前用户下,如何修改默认路径呢;1、打开Anaconda Prompt,并生成配置文件:原创 2019-11-25 10:08:10 · 5347 阅读 · 1 评论 -
2019天池大数据-全球城市计算AI挑战赛经验分享
预选赛(2018年3月20日-3月30日),决赛(4月9日-11日),虽然这个题目真的很简单,但是还是没做好,初赛只拿到231名,拿过来练手还是比较不错的,本方案的思路是使用xgboost模型,构建数据集,构建特征,非常简单;原创 2019-07-08 16:17:10 · 6585 阅读 · 0 评论 -
2018天池大数据-印象盐城:数创未来大数据竞赛经验分享
初赛(2018年1月18日-2018年2月27日),复赛是(2月28日—3月9日),比赛刚刚结束,赛题也比较简单,数据量可以说是非常小,每个月份的销售数据,主要是特征工程的处理,从时间和月份中找规律,也因为是一个人刚搞最后成绩是初赛89复赛54名,重在参与。原创 2018-03-23 11:49:52 · 5544 阅读 · 0 评论 -
kaggle和天池大数据比赛的区别
kaggle和天池大数据的比赛给我的感觉完全不一样,天池上面的比赛给我感觉更像一场考试,大家都是自己埋头做自己的东西交流很少,以拟合线上验证集为最大的目标。kaggle上的比赛给人感觉更像一场交流分享(很多比赛的别人的公开的解决方案的成绩的提升速度可能会比自己做的速度还快, 有时候跑不过baseline的感觉让人心态很炸);原创 2018-02-01 19:07:13 · 7217 阅读 · 0 评论 -
Python+pandas数据分析:用python实现Kaggle的Titanic数据分析例子
> 在数据处理方向上,R语言相比,python更接近编程语言,先学习pandas包的内容,之后再学习sklearn包运用;**思路:**> ①对每个变量进行数据探索,然后将其作图,然后又变量被舍弃,比如Embarked,有变量被拆分,比如性别Female和male,有变量被合并之类的。> ②对于train集合和test集合都是一起对变量做取舍,方便建模使用。> ③用不同的模型拟合train集合,然后会给不同的模型打分,提交打分最高的那个模型,这需要sklearn包来实现,它自带了很多算法。原创 2016-07-04 23:44:00 · 22472 阅读 · 1 评论 -
数据挖掘算法通用流程
整理了部分的数据挖掘流程,可以参考系列博客:数据挖掘系列课程原创 2016-07-03 17:45:56 · 5979 阅读 · 0 评论 -
python爬虫(一):抓取衣服图片
一、python中的线程复杂度较高,不提倡用,看了几个视频,觉得跟Java的定义和使用方式大同小异,不得不说,python和Java的相似度还是蛮高的。用python多线程的地方:抓取网页时候url分析、数据库连接池。二、python中的正则表达式与别的语言一样,在抓取网页的时候分析url地址中常常被使用。只有将其用在实战的场景中才会去想怎么用好,为了不至于博文太空虚,还是贴一下,原创 2016-04-18 14:33:00 · 6743 阅读 · 0 评论