自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(58)
  • 收藏
  • 关注

原创 MySQL牛客面试题之某宝店铺分析(电商模式)

【代码】MySQL牛客面试题之某宝店铺分析(电商模式)

2023-04-02 10:41:25 568

原创 利用Kmeans聚类进行用户分层分析

利用Kmeans聚类法对超市的用户进行分层分析,特征包括:年龄、年收入和消费水平。先对数据进行大概的了解:数据分布、特征关系(气泡图),直方图等;最后分别根据双特征和三特征进行用户分层。...

2022-06-13 14:59:41 2053

原创 打车订单数与金额等A\B测试与城市运营分析

利用打车数据对A\B测试进行实战演练,并利用订单数据进行城市运营分析。

2022-06-11 21:23:27 587

原创 某商场用户画像、时间偏好与价值分析

数据源为某商场的会员信息和用户订单表,先对数据进行预处理:缺失值、重复值和异常值处理;主要对用户分析:会员用户的画像分析,会员与非会员间的销量和金额对比,用户的时间偏好分析,销量和销售额的年、季度、月分析,用户利用RFM模型对用户分层分析并提出意见。......

2022-06-08 13:41:19 4176 3

原创 数据库的设计规范(范式)

详细介绍了数据库设计原则的三大范式和反范式化,并用例子详细说明。

2022-06-07 13:51:39 368

原创 MYSQL存储引擎、索引及优化

简单介绍了两种常见存储引擎MyISAM和InnoDB,详细介绍了索引类型、索引创建及索引优化和查询优化等。

2022-06-06 21:31:23 440 1

原创 python可视化工具之matplotlib(2)多子图与组合图

详细介绍了matplotlib如何制作多子图图画和组合图

2022-05-31 19:51:29 4286

原创 牛客shell编程练习34题带你巩固shell

题目均来自牛客网的shell编程题目

2022-05-31 13:01:39 1771

原创 python可视化工具之matplotlib(1)基本图表

详细讲解了matplotlib如何制作折线图、散点图、气泡图条形图(柱状图)、饼图、环形图、直方图、箱线图及他们的属性(刻度线、轴标签、标题、文本显示等)设置。

2022-05-30 12:14:37 5451

原创 Shell语言基本语法总结(5)文本处理之awk

详细介绍了shell中的文本处理工具awk的使用方法。

2022-05-27 15:19:14 403

原创 Shell语言基本语法总结(5)文本处理之sed

8.2、sed:对文本进行增删改查流编辑器,过滤和替换文本。工作原理:sed 命令将当前处理的行读入模式空间进行处理,处理完把结果输出,并清空模式空间。然后再将下一行读入模式空间进行处理输出,以此类推,直到最后一行。还有一个空间叫保持空间,又称暂存空间,可以暂时存放一些处理的数据,但不能直接输出,只能放到模式空间输出。这两个空间其实就是在内存中初始化的一个内存区域,存放正在处理的数据和临时存放的数据。用法:sed [选项] [脚本命令] 文件名选项描述-n不打印模式空间

2022-05-26 16:32:36 410

原创 Shell语言基本语法总结(4)正则表达式与文本处理之grep

详细介绍了shell的正则表达式各种类型以及文本处理工具grep用法,之后还会介绍文本处理的其它工具sed和awk。

2022-05-25 18:00:17 347

原创 《说英雄谁是英雄》首播,50000条弹幕词云图制作

爬取《说英雄谁是英雄》5万条弹幕,制作词云图。

2022-05-24 10:49:02 388

原创 Shell语言基本语法总结(3)数组与字符串函数

讲解了Shell语言的数组和字符串函数及各种括号的用途。

2022-05-20 17:38:00 1003

原创 Shell语言基本语法总结(2)函数与流程控制(重点)

详细讲解了Shell的条件函数(if,case,test)、循环函数(for,while) 和自定义函数。

2022-05-20 12:03:51 207

原创 Shell语言基本语法总结(1)变量与运算符

Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Ken Thompson 的 sh 是第一种 Unix Shell,Windows Explorer 是一个典型的图形界面 Shell。

2022-05-19 21:14:05 299

原创 Linux常用命令知识点大全(3)最最最最重要的编辑器VI/VIM

详细介绍了Linux最重要的VI/VIM编辑器,可以方便我们在终端中对文件进行编辑。

2022-05-18 17:01:17 370

原创 Linux常用命令知识点大全(2)

简单介绍了LINUX常用命令:修改文件权限、文件所属用户等,压缩、解压和打包命令,磁盘和进程管理等。

2022-05-18 14:35:49 301

原创 Linux常用命令知识点大全(1)

详细介绍了Linux的常用命令,包含文件目录类和用户权限类,等后续还会加上磁盘、进程管理类、压缩解压命令、管道命令以及VIM编辑器。

2022-05-17 19:47:14 938

原创 机器学习算法基本过程与优缺点总结

主要介绍了机器学习中的常见算法的基本过程和优缺点,进行学习前特征工程及结束模型训练和预测后的常见模型评价指标介绍。

2022-05-16 22:44:12 475

原创 机器学习之重要迭代算法梯度下降法

讲解了机器学习中的重要算法梯度下降法,用来求解无约束最优化问题的最小值问题。

2022-05-15 17:20:20 2196

原创 机器学习之随机森林

简单介绍了集成学习定义,典型的集成算法随机森林的过程,及利用sklearn实现随机森林及可视化。

2022-05-15 14:24:11 6821

原创 数据分析方法(5)之同期群分析

将同期群分开来看,同期就是相同时间段内,群就是具有某种相似特征或行为的用户即为一个群。合起来看,同期群就是指相同时间段内具有相似特征或行为的用户。最常见的按照日期进行分组,对同日期(同期)的新增用户(群)进行留存率分析,这样既可以分析不同日期的新增用户数,也可以分析不同日期的新增用户的留存率。同期群分析就是对比不同同期群之间的相同指标。直接来看个例子吧,更清晰一些。计算各月份的留存率。import pandas as pdimport numpy as npimport warnin.

2022-05-13 15:50:16 1305

原创 数据分析方法(4)之用户画像

用户画像基于自动标签系统将用户完整的画像描绘清晰,更有力的支撑运营决策。利用用户画像分析的基本步骤:获取数据—分析需求—数据分析产生结果。1、前台数据+后台数据前台数据:客户能够看见的,例如:电商平台中的商品价格、评价、排名、销量、关键词等;网页平台中的网页浏览次数等后台数据:看不见的,存在于平台内部数据库中,需要的时候从内部数据库直接下载进行分析,例如:广告数据,订单数据,页面点击次数、页面人均浏览次数等。数据类型:2、获取的数据种类及意义用户基本属性:性别、年龄、教育程度、.

2022-05-12 18:39:58 1714

原创 数据挖掘之关联分析Apriori算法

文章目录一、理论知识1.1、定义1.2、关联规则1.3、频繁项集的产生二、python实战一、理论知识许多商业企业在运营中积累了大量的数据。例如:普通超市的收银台每天都会收集到大量的用户购物数据。下表给出一个这样的例子,通常称为购物篮事务。每一行代表一个事务,包含唯一标识id和顾客购买的商品的集合。零售商对分析这些数据会感兴趣,因为这样可以了解到用户的购物行为,可以使用这种有价值的信息来支持各种商务应用,如市场促销,库存管理等。TID项集1{黄油 ,苹果,香蕉}2{面包,

2022-05-11 22:19:35 1459

原创 机器学习之决策树CART算法

接上期:文章目录一、理论知识1.0、特征选择:基尼指数1.1、决策树的生成1.2、CART剪枝二、python实战一、理论知识CART算法是给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART假设决策树是二叉树,内部节点取值为“是”或“否”。这样的决策树等价于递归地二分每个特征,将特征空间划分为有限个单元,并在这些单元上确定预测的概率分布即输入给定的条件下输出的条件概率分布。1.0、特征选择:基尼指数分类树用基尼指数选择最优特征,同时决定该特征的最优二值切分点。分类问题中假

2022-05-10 20:32:40 11673

原创 机器学习之决策树

详细介绍了决策树的原理基本步骤及特征选择方法信息增益和信息增益比,决策树生成算法ID3和C4.5算法,决策树的剪枝。最终利用python实现决策树回归算法和分类算法。

2022-05-10 15:23:09 369

原创 机器学习之特征工程(特征选择)

简单介绍了进行数据挖掘和机器学习前的特征工程即数据预处理,包含过滤法、包装法和嵌入法三大方向的方法,其中包含相关系数法,方差选择法、卡方检验法,递归特征消除法等诸多方法,并且利用python进行实现。

2022-05-07 14:44:55 1664

原创 机器学习之特征工程(数据清洗)

介绍了常见的数据预处理方法:缺失值、重复值、异常值、离散化及标准化等处理,及python如何实现。

2022-05-06 22:05:43 1550

原创 机器学习之分类与回归的常见评价指标

详细介绍了机器学习中分类和回归算法的常见评价指标,如分类问题的精确率、准确率、召回率、F1值及ROC曲线;回归问题的决定系数、均方误差、平均绝对误差等。利用python实现评价指标的计算。

2022-05-05 18:10:08 3565 3

原创 机器学习之层次聚类与K-Means

介绍了常用聚类算法中的K均值与层次聚类法的基本原理及步骤,且利用sklearn实现聚类算法及可视化聚类结果。

2022-05-04 21:15:32 3352

原创 机器学习之分类方法K近邻(KNN)

详解KNN原理及步骤,针对K值的选取,距离度量法的选择进行说明,并利用sklearn对手写体进行预测。

2022-05-03 22:51:51 4100 8

原创 牛客SQL大厂面试真题之用户增长场景

牛客SQL大厂面试真题之用户增长场景(某度信息流),教会你如何用SQL解决连续登录签到问题、留存率问题、用户分层问题、同时最大在线人数等常考点。

2022-05-03 19:31:35 1811

原创 机器学习之降维方法PCA与因子分析

说明了主成分分析和因子分析的基本原理及区别,和PCA的python实现和sklearn调包实现。

2022-05-01 14:34:39 4514

原创 机器学习之朴素贝叶斯

详解朴素贝叶斯原理、优缺点、计算过程及python实现朴素贝叶斯模型。

2022-04-30 20:14:40 1067

原创 机器学习之线性回归

文章目录一、线性回归1、普通线性回归(Linear Regression)2、岭回归(Ridge Regression)3、套索回归(lasso回归)二、python实战0、导包 数据说明1、线性回归2、岭回归3、Lasso回归一、线性回归1、普通线性回归(Linear Regression)线性回归是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合(自变量都是一次方);只有一个自变量的情况称为一元

2022-04-30 07:30:00 2768

原创 机器学习之逻辑回归

学习目标:了解逻辑回归的理论掌握 逻辑回归 的 sklearn 函数调用使用一、逻辑回归简介想必大家都不喜欢数学推到公式,因此我在这里只是简单的描述一下逻辑回归算法的重要的知识点,喜欢数学公式推导的可以自行百度或查看统计学习方法(李航 著)。逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型(主要用于二分类,也可以用于多分类),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:g(x)=11+e−x.

2022-04-29 11:20:05 222

原创 数据分析方法(3)之AARRR模型

详细介绍了AAARR模型的五阶段理论基础及用处;利用python进行日活跃度、研究一天中哪个时段活跃率最高;用户购买次数的分布和复购率计算。

2022-04-29 07:00:00 2926

原创 数据分析方法(2)之5W2H理论

1、5W2H理论首先看张图,明白5W2H到底是哪5个W,2个H:what:事情,你要处理的工作目标who:人,指需要研究的客户when:时间,研究用户的活跃时间等where:哪里,用户在哪里购买,或用户在各个地区的构成如何why:为什么,用户为什么购买,吸引客户的点how:怎么做,怎样做才能达成目标;how much:金额,用户的消费金额,或获取用户的成本当我们遇到难题无法下手时,可以利用5W2H方法理清我们的思路。5W2H模型可以应用于多个业务场景,

2022-04-28 13:41:42 3441

原创 数据分析方法(1)之漏斗分析

文章目录1、理论1.1、 定义1.2、 使用场景1.3、例子1.4、作用2、实战2.1、数据集说明2.2、数据预处理2.3、每日各行为用户数2.4、环节、整体转化率,解析原因建议1、理论1.1、 定义漏斗模型是一套流程式数据分析,它能够反映用户行为从起点到终点各阶段用户转化率情况,是一种重要的分析模型。1.2、 使用场景网站和APP用户行为分析的流量监控、电商行业、零售的购买转化率、产品营销和销售等日常数据运营与数据分析。1.3、例子在购物app中,用户从首页进入产品页面到最终完成支

2022-04-28 10:47:23 1646

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除