
数据分析
文章平均质量分 60
人工智能数据分析,运用算法知识解析数据之间的潜在关系
缘 源 园
https://mp.weixin.qq.com/s/EtndbQk9m9n75xiQsDcvww 欢迎关注博主微信公众号。一起交流互动更多问题。
展开
-
微博数据分析
新浪舆情通:yqt.mdata.net。西瓜微数:wb.xiguaji.com。数据报告(2021上半年)热搜用户年龄。——找热点、筛热词、创热文、蹭流量。大多分布在19岁至29岁。19至29岁用户占76%大数据报告和分析工具。2、第三方数据分析工具。原创 2025-01-21 15:11:52 · 208 阅读 · 0 评论 -
英文关键字文字拆分之语意匹配
一批词是产品词,一批词是流量词。这个世界上呢,简单的说,所有的单词除了有效词就是无效词。除了跟产品有关的就是无关的。把数十万个关键字挑出来产品有关的,其他没关系的就做排除处理。各种字体的错误变形,是不能排除掉的。第二步把他们拆分成单个字词。然后进行语意的对比。每个单字意思一样的提取出来。第一步梳理出企业产品词和市场流量词汇。...原创 2022-07-20 18:11:17 · 171 阅读 · 0 评论 -
大数据营销模型思路架构
我的理想状态是,把一个行业,一个公司里的所有商业关键字的词组,打乱成单个词。放在软件后台去自主筛选。这些词的目的是为了避免过度否定把有用的也给否了、然后把没有购买欲望的只是想获取知识的词,放在排除字词里。毕竟搜索引擎是一个供大众学习的知识平台,所有人都能接到到,都投入竞价费用,造成了极度的浪费。关键字分为:完全没有购买欲望,终生不可能有买卖需求的词。有购买欲望,搜索制造商,购买等方面的词。对产品有了解需求,只是处于了解阶段的词。对竞争对手产品感兴趣,对行业产品有需求的人。以上四类原创 2021-11-21 23:13:54 · 854 阅读 · 0 评论 -
网站产品词投放准确,带来的询盘却没法成交,是什么原因呢?
网站核心产品词投放准确,带来的询盘却无法跟踪,可能原因如下:1、没有认证;2、电压太高或者太低无法生产;3、材料构成原因;4、国内跟国外很多参数不是一个标准,无法达成一致。5、价格差距悬殊6、起订量问题如何解决这些问题?思路1:没有认证,就去办一个认证?不可,没那么简单,因为一个认证几万,办下来能不能成交还是个问题。确定只是缺了一个认证,可以去操作。但是办了之后,没成交,成本支出,不划算。我们还要考虑这个认证在市场上的认可度,是极个别的要求,还是通用市场认可的认证。原创 2021-11-09 17:37:09 · 168 阅读 · 0 评论 -
外贸乙方推广公司需要什么样的团队?
1、懂产品,知道怎么学习分类产品。公司目前系列产品任何一个行业方向了解的。英语不需要特别好,会分类学产品就行。2、自主学习能力时代在更新,社会在变化,不断学习才是立业之本。自主学习,探索能力,不是被动工作。用发现的眼光,去发现问题解决问题。且数据分析还需要逻辑思维能力。3、否掉关键字库市场上所谓的大数据处理系统,排除垃圾无用流量。实质上是把有商业用途的词留下,无用的排除账户,原理就这么简单。最好能把针对不同的否定关键字提前放入账户。只需要上产品关键字。针对企业独特卖点写广告语。即原创 2021-11-08 15:10:07 · 786 阅读 · 0 评论 -
LightGBM评分卡
lightGBM跨时间交叉验证.选择比较重要的特征,这些特征是禁得起跨时间交叉验证逻辑回归/xgboost/lightgbm,线上跑lr模型,线下xgboost/lightgbm,上线之后需要监控不同信用分段的人群分布情况原创 2021-03-24 21:59:38 · 1758 阅读 · 1 评论 -
GBDT/XGBoost/LightGBM
LigthGBM是boosting集合模型中的新进成员,是微软开源的一个实现 GBDT 算法的框架,它和XGBoost一样是对GBDT的高效实现,原理上它和GBDT及XGBoost类似,都采用损失函数的负梯度作为当前决策树的残差近似值,去拟合新的决策树。原创 2021-03-24 01:01:21 · 740 阅读 · 0 评论 -
集成学习bagging, boosting, stacking
bagging 可以并行执行 每一棵树权重是一样的 随机森林 boosting 串行执行的,后一棵树学习的是前一棵树模型的error gbdt xgboost lightgbm stacking gbdt+lr xgboost+lr (做推荐的时候经常使用) xgboost 做特征交叉 xgboost预测过程中使用到的特征组合+原始特征=》LR ...原创 2021-03-24 00:01:21 · 770 阅读 · 0 评论 -
xgboost调参
eta : 默认是0.3,别名是 leanring_rate,更新过程中用到的收缩步长,在每次提升计算之后,算法会直接获得新特征的权重。 eta通过缩减特征的权重使提升计算过程更加保守;[0,1]gamma:默认是0,别名是 min_split_loss,在节点分裂时,只有在分裂后损失函数的值下降了(达到gamma指定的阈值),才会分裂这个节点。gamma值越大,算法越保守(越不容易过拟合);[0,∞]max_depth:默认是6,树的最大深度,值越大,越容易过拟合;[0,∞]min_child_w.原创 2021-03-23 00:13:08 · 401 阅读 · 0 评论 -
XGBoost常用调参
xgboost参数 选择较高的学习速率(learning rate)。一般情况下,学习速率的值为0.1。但是,对于不同的问题,理想的学习速率有时候会在0.05到0.3之间波动。选择对应于此学习速率的理想决策树数量。XGBoost有一个很有用的函数“cv”,这个函数可以在每一次迭代中使用交叉验证,并返回理想的决策树数量。 对于给定的学习速率和决策树数量,进行决策树特定参数调优(max_depth, min_child_weight, gamma, subsample, colsample_by原创 2021-03-23 00:12:58 · 1826 阅读 · 0 评论 -
Xgboost建模,sklearn评估,分类问题用混淆矩阵,回归问题用MSE
import xgboost as xgbimport numpy as npimport picklefrom sklearn.model_selection import KFold, train_test_split, GridSearchCVfrom sklearn.metrics import confusion_matrix, mean_squared_error #混淆矩阵,均方误差from sklearn.datasets import load_iris, load_digit.原创 2021-03-23 00:12:04 · 4779 阅读 · 3 评论 -
xgboost 案例分析
xgboost 使用Dmatrix格式转换安装xghoost包:pip install xgboost -i https://pypi.tuna.tsinghua.edu.cn/simpleimport numpy as npimport pandas as pdimport pickle #pickle提供了一个简单的持久化功能。可以将对象以文件的形式存放在磁盘上import xgboost as xgbfrom sklearn.model_selection import train_.原创 2021-03-23 00:11:36 · 1077 阅读 · 2 评论 -
XGBOOST算法原理
XGBOOST和GBDT的区别在哪里? 传统的GBDT是以CART树作为基分类器,xgboost还支持线性分类器,这个时候xgboost相当于带L1和L2正则化项的逻辑回归(分类问题)或者线性回归(回归问题),线性分类器的速度是比较快的,这时候xgboost的速度优势就体现了出来。 传统的GBDT在优化时只使用一阶导数,而xgboost对损失函数做了二阶泰勒展开,同时用到了一阶和二阶导数,并且xgboost支持使用自定义损失函数,只要损失函数可一阶,二阶求导。 在损失函数里加入了正原创 2021-03-22 00:16:58 · 1164 阅读 · 0 评论 -
GBDT算法原理
Gradient Boosting算法基本原理 训练一个模型m1,产生错误e1 针对e1训练一个模型m2,产生错误e2 针对e2训练第三个模型m3,产生错误e3 ..... 最终预测结果是:m1+m2+m3+..... GBDT是boosting的一种方法,主要思想: 每一次建立单个分类器时,是在之前建立的模型的损失函数的梯度下降方向。 损失函数越大,说明模型越容易出错,如果我们的模型能让损失函数持续的下降,则说明我们的模型在持续不断原创 2021-03-22 00:16:25 · 424 阅读 · 0 评论 -
LightGBM两种使用方式
原生形式使用lightgbm(import lightgbm as lgb)import lightgbm as lgbfrom sklearn.metrics import mean_squared_errorfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_split# 加载数据iris = load_iris()data = iris.datatarget =.原创 2021-03-22 00:07:07 · 4576 阅读 · 0 评论 -
逻辑回归构建评分卡
身份特质 稳定性 :所在公司,职业类型,消费稳定度,近一年内使用手机号码数,手机号码稳定天数,地址稳定天数履约能力:是否有车,是否有房,近一个月流动资产日均值,近三个月流动资产日均值,近六个月流动资产日均值,近一年流动资产日均值,近一个月理财产品总收益,近三个月理财产品总收益,近六个月理财产品总收益,近一年理财产品总收益,历史理财产品总收益,近一个月支付总金额,近三个月支付总金额,近六个月支付总金额,近一个月消费总金额,近三个月消费总金额,近六个月消费总金额,信用历史:近一个月主动查询金融机构次数,原创 2021-03-22 00:05:25 · 906 阅读 · 0 评论 -
特征工程操作流程
数据采集/收集,根据问题选择算法,根据算法的特点 对数据进行处理,根据特征的类型 做进一步处理,特征衍生,特征选择,分类问题 样本是否均衡,建模调参,模型融合问题原创 2021-03-18 23:26:08 · 239 阅读 · 0 评论 -
从入门到冠军 中国移动人群画像赛TOP1经验学习研究
""" 导入数据 """import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plttrain_data=pd.read_csv("train_dataset.csv")test_data=pd.read_csv("test_dataset.csv")df_data=pd.concat([train_data,test_data],ignore_index=True)#如果.原创 2021-03-16 12:06:39 · 2060 阅读 · 0 评论 -
优衣库案例分析
1 案例介绍 案例背景 对APP下载和评分数据分析帮助App开发者获取和留存用户 通过对应用商店的数据分析为开发人员提供可操作的意见 通过数据分析要解决的问题 免费和收费的App都集中在哪些类别 收费app的价格是如何分布的,不同类别的价格分布怎样 App文件的大小和价格以及用户评分之间是否有关 分析流程 数据概况分析 数据行/列数量 缺失值分布原创 2021-03-09 12:30:38 · 1912 阅读 · 1 评论 -
案例 APP Store 数据分析
1 案例介绍 案例背景 对APP下载和评分数据分析帮助App开发者获取和留存用户 通过对应用商店的数据分析为开发人员提供可操作的意见 通过数据分析要解决的问题 免费和收费的App都集中在哪些类别 收费app的价格是如何分布的,不同类别的价格分布怎样 App文件的大小和价格以及用户评分之间是否有关 分析流程 数据概况分析 数据行/列数量 缺失值分布原创 2021-03-08 00:23:36 · 2459 阅读 · 2 评论 -
链家租房数据基本分析
import pandas as pdlj_data = pd.read_csv('LJdata.csv')#原始列名lj_data.columns#Index(['区域', '地址', '标题', '户型', '面积', '价格', '楼层', '建造时间', '朝向', '更新时间', '看房人数','备注', '链接地址'],dtype='object')lj_data.columns = ['district', 'address', 'title', 'house_type', 'ar.原创 2021-03-08 00:23:25 · 1693 阅读 · 2 评论 -
数据预处理-框架总结概况
数据清洗 缺失值处理 删除 谨慎 行删 (如果只有几个样本有缺失,可以考虑按行删除) 列删 (如果某个特征缺失比较严重,可以考虑把这个特征删除) 填充 统计学方法 连续型特征 均值、加权均值、中位数等方填充 分类特征 众数 模型预测 预测用户的性别 专家补全 业务经验比较丰富,利用经...原创 2021-03-08 00:23:05 · 327 阅读 · 0 评论 -
数据预处理详解
数据预处理是数据分析和数据运营过程中的重要环节,它直接决定了后期所有数据工作的质量和价值输出 数据清洗 数据转换 数据抽样 Python数据清洗(代码实现)缺失值处理 :https://blog.youkuaiyun.com/weixin_48135624/article/details/114482634异常值处理:https://blog.youkuaiyun.com/weixin_48135624/article/details/114483524归一化/标准化https://blo原创 2021-03-08 00:22:35 · 2495 阅读 · 0 评论 -
特征工程建模流程
业务建模流程 将业务抽象为分类or回归问题 定义标签,得到y 选取合适的样本,并匹配出全部的信息作为特征的来源 特征工程 + 模型训练 + 模型评价与调优(相互之间可能会有交互) 输出模型报告 上线与监控 什么是特征在机器学习的背景下,特征是用来解释现象发生的单个特性或一组特性。 当这些特性转换为某种可度量的形式时,它们被称为特征。举个例子,假设你有一个学生列表,这个列表里包含每个学生的姓名、学习小时数、IQ和之前考试的总分数。现在,有一个原创 2021-03-07 13:31:50 · 713 阅读 · 0 评论 -
数据分析运营——全渠道发货分析,用户运营
数据分析运营——会员占比分析,会员占所有消费比例,不同门店推动会员运营的积极性;会员质量原创 2021-03-07 12:50:44 · 361 阅读 · 0 评论 -
RFM充分应用在商业环境
rfm作用,给用户分群(从用户价值的角度给用户分群),分群之后可以针对不同群体的特点,来进行精细化/差异化/个性化运营rfm适用业务,用户直接消费(电商)如果没有直接消费的(信息流,短视频)不适合rfmrfm分群之后,根据不同群体的特点做不同的运营动作如果把rfm都分成三个档次,333,233,223,133 要重点照顾的群体 按照不同组用户数量占总体用户的比例,比例过高 。可以系统自动化运营;比例比较低,价值比较高 VIP人工运营。用户分群有很多种套路可以对用户进行分群,分群的目.原创 2021-03-07 12:17:30 · 233 阅读 · 0 评论 -
cut和quct的区别
pd.cut 指定分组区间,需要注意默认情况,传入的分组区间是左开右闭pd.quct quct等频分组只需要传入分成几组,尽量按照每一组样本数量相等pd.qcut()qcut是根据这些值的频率来选择箱子的均匀间隔,即每个箱子中含有的数的数量是相同的(qcut:大致分为相同的几组)pd.qcut(data, q):对数据进行分组将数据分组,一般会与value_counts搭配使用,统计每组的个数# 自行分组qcut = pd.qcut(p_change, 10)# 计算分到每个组.原创 2021-03-07 01:00:12 · 718 阅读 · 0 评论 -
随机森林/决策树
决策树(knn)/随机森林 给出可解释的规则 强调解释性,并且要给出一个很明确的业务指导的时候决策时是首选。 随机森林:“随机“表示2种随机性,即每棵树的训练样本、训练特征随机选取。多棵决策树组成了一片“森林”,计算时由每棵树投票或取均值的方式来决定最终结果,体现了三个臭皮匠顶个诸葛亮的中国传统民间智慧。决策树: 以分类任务为代表的决策树模型,是一种对样本特征构建不同分支的树形结构。比如,去银行贷款,银行会根据你的实际情况评估,年龄,是否有工作,性别等...原创 2021-03-07 00:04:26 · 245 阅读 · 0 评论 -
会员数据化运营RFM
1 会员数据化运营概述 会员数据化运营几乎是所有企业的必备运营工作,企业要生存必须有会员(客户,用户) 会员数据化运营辅助于客户关系管理(CRM),可以用来解决以下几方面问题: 会员的生命周期状态是什么? 会员的核心诉求是什么? 会员的转化习惯和路径是什么? 会员的价值如何? 如何扩大市场覆盖、获得更多的新会员? 如何更好地维系老会员? 应该在什么时间、采取何种措施、针对哪些会员做哪些运原创 2021-03-06 22:07:24 · 2225 阅读 · 0 评论 -
数据分析概要及分析分析思路
数据如何驱动运营给企业带来价值 原始收集数据 数据埋点 收集用户在网页端,APP,小程序等终端的各种数据 业务数据 外部数据 数据加工处理 将收集的数据转换成可理解、可量化、可观察的业务指标 单纯的数据没有意义,只有和业务结合才能发挥价值 数据可视化 有了数据指标,必须管理好指标 建立指标体系 数据决策和执行 从数据中得到相关信息,需要把这些信息转换成原创 2021-03-06 21:15:39 · 1714 阅读 · 0 评论 -
金融反欺诈 常用特征处理方法
pydotplus依赖Graphviz这个绘图库, 它是c开发的, 所以在安装pydotplus之前, 需要首先安装Graphviz, 不过不管哪个系统, 它都有编译好的二进制包, 可以直接安装。以windows为例, 我们首先需要现在Graphviz安装包....原创 2021-03-06 03:14:58 · 1596 阅读 · 1 评论 -
金融风控_特征衍生案例代码实现_放款中数据分析
对creat_dt做补全,用oil_actv_dt来填补 截取6个月的数据。构造变量的时候不能直接对历史所有数据做累加。否则随着时间推移,变量分布会有很大的变化。原创 2021-03-05 00:37:59 · 818 阅读 · 1 评论 -
DecisionTreeRegressor决策树的属性解释
dtree = tree.DecisionTreeClassifier( criterion="mse" #不纯度的计算方法。"mse"表示使用均方误差;"friedman_mse"表示使用费尔德曼均方误差;“mae”表示使用绝对平均误差 ,splitter="best" #控制决策树中的随机选项。“best”表示在分枝时会优先选择重要的特征进行分枝;“random”表示分枝时会更加随机,常用来防止过拟合 .原创 2021-03-03 23:57:56 · 868 阅读 · 1 评论 -
信贷风险控制理论操作流程——特征工程、特征衍生
一 定义问题 基本统计分析 工具选择 建模分析(选择算法) 监督/无监督 监督 分类 回归 算法确定下来之后 数据预处理 特征衍生 特征选择 风控建模的时候需要注意 信用评分分段之后,正常的效果,评分和预期的概率应该是单调的 按照评分进行分组 ..原创 2021-03-03 11:35:52 · 502 阅读 · 0 评论 -
特征单调性和分布稳定性案例代码分析实现
在做很多基于空间划分思想的模型的时候,我们必须关注变量之间的相关性。单独看两个变量的时候我们会使用皮尔逊相关系数。原创 2021-03-03 00:20:13 · 889 阅读 · 0 评论 -
特征工程 — 特征选择Filter、Wrapper、Embedded
移除低方差的特征移除低方差的特征。因为方差为0,说明一组数据中每个数都是一样的,那么数据的波动就最小,也就是没有波动了,因为平均数是1,每个数据也都是1如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。threshold 临界点VarianceThreshold 方差阈值方差很小,分子很小,说明数值-平均数的太相近,数据太过集中,拥有这些特征无法判断结果。所以需要移除方差是0的特征还有方差特别小的特征。传入方差的阈值,低于这原创 2021-03-02 23:19:24 · 2142 阅读 · 0 评论 -
风控业务数据处理流程-数据采集、反欺诈、风控模型、催收
风控业务 数据采集 自己获取 从运营商获取 从大数据公司获取 人民银行征信报告 从手机里爬数据 反欺诈 大部分的公司都使用的是反欺诈规则 风控模型 A 申请评分卡 B 行为评分卡 C 催收评分卡 催收 ...原创 2021-03-02 23:09:50 · 1492 阅读 · 0 评论 -
案例解决问题的建模流程
基本数据分析,工具分析,计算机语言,可以结局的问题;利用算法建模;数据预处理;特征衍生;特征选择原创 2021-03-02 22:26:31 · 144 阅读 · 0 评论 -
在python中关键字如何提取
导入库import jieba.analyse # 导入关键字提取库import pandas as pd # 导入pandas读取文本数据with open('article1.txt') as fn: string_data = fn.read() # 使用read方法读取整段文本关键字提取# 关键字提取tags_pairs = jieba.analyse.extract_tags(string_data, topK=5, withWeight=True...原创 2021-02-09 00:39:59 · 3121 阅读 · 0 评论 -
用python处理对词语进行词性标注
读取整段文本# 导入库import jieba.posseg as psegimport pandas as pdwith open('article1.txt') as fn: string_data = fn.read() # 使用read方法读取整段文本分词+词性标注words = pseg.cut(string_data) # 分词words_pd = pd.DataFrame(words, columns=['word', 'type']) # 创建结果数..原创 2021-02-09 00:31:06 · 2948 阅读 · 0 评论