- 博客(34)
- 收藏
- 关注
原创 【mac】Obsidian手动安装插件-多端同步
porxy github 这个插件是专门解决【无法加载插件市场的】先在github中打开github上教了方法,下载zip文件,解压后。插入到.obsidian/plugins文件夹内。一般来讲,小白刚安装的时候难免找不到.obsidian这个隐藏文件,此时你只要点这里看到那个【主题】那一栏那个文件夹的图标没有,点进去,他会给你跳到主题的文件夹右键themes,会给你选择进入其他文件,其中就有.obsidian一般来讲是还没有plugins这个文件夹的,需要手动创建他。
2023-03-25 17:05:08
6421
3
原创 国内电商数据分析实战全流程第一章:用户行为分析(小白也能学会,手把手教系列,思维晋级,独家分享)
用户行为就是用户在产品上的产生的行为,像我们逛某宝,某东,某多多,在里面点击的任何一件商品,收藏商品,购买商品等等,任何一切行为都会给运营人员记录到(当然是有价值的才记录)对用户的行为进行分析,能了解用户,也能了解自己。
2022-11-14 15:52:56
534
原创 GBDT--梯度提升树
梯度提升树(Gradient Boosting Decision Tree,GBDT)是提升法中的代表性算法,它即是当代强力的XGBoost、LGBM等算法的基石,也是工业界应用最多、在实际场景中表现最稳定的机器学习算法之一。在最初被提出来时,GBDT被写作梯度提升机器(Gradient Boosting Machine,GBM),它融合了Bagging与Boosting的思想、扬长避短,可以接受各类弱评估器作为输入,在后来弱评估器基本被定义为决策树后,才慢慢改名叫做梯度提升树。受Boosting算法首个发
2022-07-29 11:38:21
1370
原创 特征筛选--方差分析-f线性相关
方差分析卡方检验更多的会考虑在衡量两个离散变量是否独立时使用,如果是连续变量和离散变量之间的独立性,更常见的做法是进行方差分析。方差分析也是一种假设检验,因此我们仍然会采用介绍假设检验的一般流程来介绍方差分析。首先第一步是提出假设,不像卡方检验的零假设那样直接明了、就是假设变量之间相互独立,方差分析的零假设会更加复杂一些,而理解方差分析的零假设也会需要一些统计学背景知识。这里我们先提出方差分析的零假设,然后再解释为何这样的假设能够帮助我们判断连续变量和离散变量之间是否独立。H0H1。...
2022-07-27 11:27:53
969
1
原创 特征筛选方法--卡方检验
卡方检验在一般情况下,卡方检验是针对于离散变量的独立性检验,卡方检验的零假设为两个离散变量相互独立。很明显,如果我们将其用于标签和特征的判别,就能借此判断某特征和标签是不是独立的,如果是,则说明特征对标签的预测毫无帮助。因此在很多时候,卡方检验都是非常重要的剔除无关特征的方法.Step1.提出假设。...
2022-07-26 18:32:50
3168
原创 贝叶斯HPO基本流程
这也是当然的,因为观测点之间函数的分布如何完全是未知的,并且该分布离观测点越远时,我们越不确定真正的函数值在哪里,因此人们猜测的函数值的范围非常巨大。在观测点周围,置信度总是很高的,远离观测点的地方,置信度总是很低,所以如果我们能够在置信度很低的地方补充一个实际的观测点,我们就可以很快将众人的猜测统一起来。同时,不同的人可能对函数的整体分布有不同的猜测,不同猜测下对应的最小值也是不同的。由于不同的人对函数的整体分布有不同的猜测,不同猜测下对应的最小值也是不同的,根据每个人猜测的函数结果,我们在。...
2022-07-26 13:51:12
1625
原创 超参数优化--贝叶斯方法
0,1)}需要注意的是,bayes_opt只支持填写参数空间的上界与下界,不支持填写步长等参数,且bayes_opt会将所有参数都当作连续型超参进行处理,因此bayes_opt会直接取出闭区间中任意浮点数作为备选参数。例如,取92.28作为n_estimators的值。这也是为什么在目标函数中,我们需要对整数型超参的取值都套上int函数。输入bayes_opt的参数空间天生会比其他贝叶斯优化库更大/更密,因此需要的迭代次数也更多。hp.quniform(“参数名称”,下界,上界,步长)以及。...
2022-07-26 13:34:41
5058
2
原创 超参数优化--随机网格法
在网格搜索时我们提到,伴随着数据和模型的复杂度提升,网格搜索所需要的时间急剧增加。以随机森林算法为例,如果使用过万的数据,搜索时间则会立刻上升好几个小时。因此,我们急需寻找到一种更加高效的超参数搜索方法。因此,sklearn中的网格搜索优化方法主要包括两类,其一是调整搜索空间,其二是调整每次训练的数据。其中,调整参数空间的具体方法,是放弃原本的搜索中必须使用的全域超参数空间,改为挑选出部分参数组合,构造超参数子空间,并只在子空间中进行搜索。...
2022-07-25 18:06:35
1575
原创 随机森林--
模型融合在最初的时候被称为“分类器结合”,这个领域主要关注强评估器,试图设计出强大的规则来融合强分类器的结果、以获取更好的融合结果。这个领域的手段主要包括了投票法Voting、堆叠法Stacking、混合法Blending等,且被融合的模型需要是强分类器。模型融合技巧是机器学习/深度学习竞赛中最为可靠的提分手段之一,常言道当你做了一切尝试都无效,试试模型融合。...
2022-07-25 14:30:29
2923
原创 kMeAnS代码
Kmeans算法是一个无监督算法,他是根据一大堆数据自己训练出他自己是属于哪一类型的,本质上也是算距离我们先自己搞一个已经做好分类的kmeans数据集from sklearn.datasets import make_blobs #自己创建数据集 X, y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1) #有500样本,2个类别,4个中心点plt.scatter(X[:, 0], X[:, 1], marker=
2022-05-11 15:56:04
543
原创 电商数据分析常见的指标汇总
总体运营指标:从流量、订单、总体销售业绩、整体指标进行把控,起码对运营的电商平台有个大致了解,到底运营的怎么样,是亏是赚。网站流量指标:即对访问你网站的访客进行分析,基于这些数据可以对网页进行改进,以及对访客的行为进行分析等等。销售转化指标:分析从下单到支付整个过程的数据,帮助你提升商品转化率。也可以对一些频繁异常的数据展开分析。户价值指标:这里主要就是分析客户的价值,可以建立RFM价值模型,找出那些有价值的客户,精准营销等等。商品类指标:主要分析商品的种类,那些商品卖得好,库存情况,以及.
2021-08-17 15:41:38
1877
原创 购物篮分析与产品定位分析
什么是产品关联度分析关联分析是发现交易数据库中不同商品(项)之间的联系,主要应用于电商网站 推荐、线下零售门店商品摆放等场景中。关联规则:支持度(support):数据集中包含某几个特定项的概率。比如在1000次的 商品交易中同时出现了A和B的次数是50次,那么此关联的支持度为5%。置信度(Confidence):在数据集中已经出现A时,B发生的概率,置信度 的计算公式是 :A与B同时出现的概率/A出现的概率。提升度就是在购买A产品这个条件下购买B产品的可能性与没有这个条件下购买B 产品的可能性
2021-07-25 12:29:18
735
原创 亚马逊商品画像分析
商品画像分析此次针对亚马逊曝光的裙子类目进行分析,即在亚马逊的裙子页面,进行翻页抓取曝光的数据通过分析曝光价格的帕累托图可以让新上架的商品选择一个更容易畅享的价格,如下图所示,要是新上架的一个裙子定价在9美金,想着价格便宜可以买的多,但实际上价格分布在20-30美金的才是主流的价格,而且9美金的商品成品也不高,做工也不会好到哪。一般而言,累计平均数可以帮你了解整体的走势,可以看到,先增加后慢慢降低,首先观察到0-0.2披风评分的商品很高多,也正常,很多商品也没有评分,默认就为0。但是4.8-5
2021-07-24 23:26:50
1136
原创 亚马逊入驻商用户画像分析
什么是入驻商用户画像体系像淘宝,京东,天猫,亚马逊,拼多多的叫平台方,在平台里面的阿迪达斯,耐克,鸿星尔克,卡尔米等叫入驻商。用户的基本属性:性别、年龄、受教育程度、地域分布等,用户的行为属性:下单时间、促销敏感度、评论敏感度。用户的偏好属性:用户的加购数据/平台推荐数据电商领域对于用户数据的应用: • 分析用户行为数据来获取用户的商品偏好、价格偏好等信息,从而帮助 平台/入驻商更好地去推荐商品/生产商品 • 分析用户属性数据来对用户进行合理地分类,从而帮助平台/入驻商更好 地了解用户需求,搭建用户画像
2021-07-24 14:28:30
2325
原创 RFM模型实战
什么是RFM模型RFM模型是衡量客户价值和客户创利能力的重要工具。该模型通过一个客户的近期购买行为、购买的总体频率,以及花了多少钱三项指标来描述该客户的价值状况。如何构建RFM模型最近一次消费 (Recency)最近一次消费意指上一次购买的时间——用户上一次是什么时候下的单、用户上一次是什 么时候订购的服务,或在线下门店中用户上一次进店购买是什么时候。消费频率 (Frequency)消费频率是顾客在限定的期间内所购买的次数。一般而言,最常购买的用户,也是满意度/忠诚 度最高的顾客,同时也是对品牌
2021-07-24 00:10:09
784
原创 线性回归,KNN,Kmeans算法小练
线性回归from sklearn import datasets,linear_model #导入线性回归模型from sklearn.model_selection import train_test_split #用于数据集测试集的分割import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#自己创建一个数据集data = np.array([[152,51],[156,53],[160,54]
2021-07-17 15:30:38
305
原创 Matplotlib绘制常见的图表
Matplotlib绘图导入包import matplotlib.pyplot as plt主要思路:创建一个画布(Figure)创建一个或者多个绘图(plotting)区域(坐标系,坐标轴,axis)在plotting区域上描绘点,线等修饰plotting(添加标签,设置其他属性)折线图的绘制plt.plot('x轴','y轴')#第一次执行plt.xxx()画图代码时,系统要是找不到figure对象,会自动创建一个对象,并且自动创建一个axes坐标系temp = [34,34
2021-06-25 23:48:43
196
原创 数据分析中常用的pandas操作
数据预清洗缺失值查找与处理python – None(缺失对象)numpy – nan(not a number,缺失数值) float类型,可以数学计算,但返回nan值pandas – NaT(缺失时间) 基于numpy开发的,有nan和NaT如何告诉pandas将空格,特殊值处理成缺失值import pandas as pdpd.read_csv(filename,na_values='')pd.read_csv(filename,na_values=['999','
2021-06-25 23:43:24
264
原创 正则表达式
正则的含义正则表达式就是用来操作字符串的一种逻辑公式正则表达式的应用场景数据分析时数据获取的文本筛选写爬虫代码的时候,网页数据的匹配写前端代码的时候,用户输入数据的验证测试人员对请求结果的数据验证批量文本编辑,比如Sublime Text或nodepad++、EditPlus等记事本软件中全都支持常用的格式校验邮箱验证IP地址验证电话号码验证身份证号码验证密码强度验证网址验证汉字验证 [\u4e00-\u9fa5]…凡是有一定规律的,批量的数据获取,都可以使用正则表达式来完
2021-06-21 23:04:12
119
原创 一文带你快速上手正则表达式
正则表达式简介正则表达式在从文本,代码,日志文件,电子表格甚至文档中提取信息时非常有用。尽管形式语言背后有很多理论,但以下教程将探索正则表达式的更实际用法,以便可以尽快使用它们。使用正则表达式时要认识的第一件事是,所有内容本质上都是一个字符,我们正在编写模式以匹配特定的字符序列(也称为字符串)。大多数模式都使用普通的ASCII,包括键盘上的字母,数字,标点符号和其他符号,例如%#$ @ !,但是unicode字符也可以用于匹配任何类型的国际文本。ABC下面我们从ABC开始入门练习一:匹配字符
2021-02-01 20:52:02
419
1
原创 window10+linux双系统-卸载linux系统的方法
网上很多方法都是利用cmd的指令MbrFix /drive 0 fixmbr但是这个方法好像只适用于win7或者更以前的版本所以在这里介绍一个我本人亲测的解决方案,也是借鉴了网上的方法。首先先修改启动的顺序,装了双系统后,开机界面会给我们选择系统,当然首位的事linux系统,我们要先修改顺序,将window系统启动提前。方法 :进入电脑的BIOS界面。以我的宏碁为例子,开机的一瞬间...
2020-01-20 19:57:41
4843
2
原创 数据结构与算法(C++)--链表
线性表的链性存储结构线性表中的数据元素(结点)在存储器的位置是任意的,即逻辑上相邻的数据元素在物理位置上不一定相邻结点链表n个结点由指针链组成一个链表...
2020-01-20 10:54:50
245
原创 吴恩达机器学习4--正则化(Regularization)
过拟合问题看下面回归的例子第一个模型是一个线性模型,欠拟合,不能很好地适应我们的训练集;第三个模型是一个四次方的模型,过于强调拟合原始数据,而丢失了算法的本质。而中间的模型似乎最合适在分类问题中:就以多项式理解,???? 的次数越高,拟合的越好,但相应的预测的能力就可能变差正则化线性回归正则化线性回归的代价函数为:正则化线性回归的梯度下降算法为:可以看出,正则化线性回归的梯度下降...
2020-01-19 12:12:49
253
原创 吴恩达机器学习3--逻辑回归(Logistic Regression)
分类问题在分类问题中,你要预测的变量 ???? 是离散的值,我们将学习一种叫做逻辑回归 (LogisticRegression) 的算法,这是目前最流行使用最广泛的一种学习算法。在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子有:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;判断肿瘤是恶性还是良性先从二元分类来讨论我们将因变量可能属于的两个类别...
2020-01-17 21:31:21
525
原创 数据结构与算法(C++)- - 线性表
线性表数据元素之间的逻辑关系是线性关系线性结构是数据元素间约束力最强的一种数据结构:非空集合中,除第一个元素无前驱外,集合中每个元素有且只有一个直接前驱;除最后一个元素无后继外,集合中每个元素有且只有一个直接后继。顺序表(线性表的顺序存储结构)特点(1)利用顺序元素的存储位置表示线性表中相邻数据元素之间的前后关系,即线性表的逻辑结构与存储结构一致。(2)在访问线性表时,可以快速地计算...
2020-01-17 11:10:42
370
原创 吴恩达机器学习2-多变量线性回归(Linear Regression with Multiple Variables)
吴恩达机器学习2-多变量线性回归(Linear Regression with Multiple Variables)多维特征以房价模型为例,现在引入多个特征,例如房间数量,离主干道的距离等等构成一个含有多个变量的模型,模型中的特征为(????1, ????1, . . . , ????????)。???? 代表特征的数量????(????)代表第 ???? 个训练实例,是特征矩阵中的第????行,是一个向量(vector)。比方说,上图...
2020-01-14 21:55:57
361
原创 吴恩达机器学习笔记1---单变量线性回归(Linear Regression with One Variable)
吴恩达机器学习笔记1—单变量线性回归(Linear Regression with One Variable)模型表示首先我们引用一个房价预测的例子,由于是单变量模型,此处影响房价的变量只有房屋尺寸的大小这也是个监督学习,监督学习的意思是对与每个数据都给出了正确的答案,即告诉我们:根据我们的数据来说,房子实际的价格是多少,而且,更具体来说,这是一个回归问题。更进一步来说,在监督学习中我们有...
2020-01-14 16:37:43
323
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人