
【python数据分析】
文章平均质量分 62
python
数据闲逛人
18级双非本科学生
展开
-
【python数据运营】Task02 会员RFM模型的学习和运用
文章目录总结**小小结**:总结 终于终于!!! 过程是十分曲折,把这个东西画出去了,看教程没有说怎么操作画出来,然后一直在瞎操作,意思到自己是多么菜,我是怎么经历了这于我的九九八十一难了?我来复盘复原一下下透视表我会,插入透视,然后咋眼一看怎么是求和项,为啥rfm_group 不是求和,是离散化呢?猜想:可能是year这里原来是数字,我试试改为文本说不定就好了结果丝毫没有变化,我想怎么会这原创 2021-08-21 00:03:32 · 400 阅读 · 1 评论 -
python中dataframe某列按照指定批量索引修改其单元格内容
文章目录1 需求2 举例搬代码3 突破进展4 感想1 需求 我有一份关于地理位置的数据,但是地理位置信息是用户填写的,所以五花八门都有,如下location.xlsx我需要根据另外一份一二三四五线城市数据,如下city.xlsx我想location.xslx的location列字符串中包含city.xlsx中city列数据字眼就在location.xslx中打上新的一列作为标签(城市维度)2 举例搬代码pr原创 2022-04-05 10:07:34 · 3195 阅读 · 0 评论 -
学习自动化PPT
文章目录快速创建PPT向幻灯片中插入文字向幻灯片中插入新文本框向幻灯片中插入图片向幻灯片中插入形状插入表格参考 《Python自动化办公》from pptx import Presentationfrom pptx.util import Inchesfrom pptx.enum.shapes import MSO_SHAPE快速创建PPT# PPT对象ppt = Presentation()# 遍历所有布局for layout in ppt.slide_layouts: # 为该原创 2022-02-15 16:32:02 · 468 阅读 · 0 评论 -
python中的enumerate函数的意思所在
前言如果我们想遍历一个列表或DataFrame格式的数据同时用到对应的索引去进行一些其他的操作,我一般会用for i in range(len(platform_kol_list)): print(i) # 这里也可以用i去做其他的东西(对应索引位置的东西) print(platform_kol_list[i])用enumerate()函数的方法for idx, certain_platform_kol in enumerate(platform_kol_list): prin原创 2021-12-03 14:59:31 · 1119 阅读 · 0 评论 -
python利用jieba进行切词 词频统计 两种写法 用于绘制词云图
import importlibimportlib.reload(sys)import jiebaimport jieba.analyseimport xlwt #写入Excel表的库 if __name__=="__main__": wbk = xlwt.Workbook(encoding = 'ascii') sheet = wbk.add_sheet("wordCount")#Excel单元格名字 word_lst = [] key_list=[] for line in原创 2021-10-28 15:53:23 · 1031 阅读 · 0 评论 -
python中写SQL语句里面的变量如何优雅替换查询,不至于写大量冗余的代码
导库import pandas as pdfrom pigeon.connector import new_clickhouse_connectorfrom pigeon.connector import new_impala_connectorch_conn = new_clickhouse_connector()impa_conn = new_impala_connector()hhh_sql ="""select ID,1,2,3 from table where time =原创 2021-10-26 18:19:29 · 850 阅读 · 2 评论 -
python中groupby后的agg聚合统计
groupby后我最头痛的是索引位置感觉不太对,不符合自己想要的,所以经常想将其变成dataframe格式,因为这样我们就可以用很多方法去运算处理了,这时最简单的方法是修改其参数as_index=False,详细情况可以看下面这篇文章groupby后将其转换为Dataframe格式的两种方法而这里想说的是groupby后的agg函数,直接上代码agg函数具体用法可以看这篇文章# 先看看数据长什么样子data_mergerfm_gb = data_merge.groupby(['year','原创 2021-08-19 11:32:50 · 2011 阅读 · 0 评论 -
Task01:python数据化运营知识板块的学习
文章目录前言1 Xmind脑图运营知识提纲2 进一步学习参考前言内容说明:了解企业数据化运营中,运用数据工具对会员进行运营的思路和方法,了解RFM模型的运用,掌握Python处理数据的技巧,掌握Excel表的可视化图表及透视工具。定位人群:对业务类数据分析感兴趣者、希望深入了解业务知识的应届生或在校生等。数据:链接:https://pan.baidu.com/s/1xXS0gQPrGFda_mmX-0dC9A提取码:zdxx学习资料(含代码):见参考链接1 Xmind脑图运营知识提纲RF原创 2021-08-18 23:18:34 · 131 阅读 · 0 评论 -
日常十万个为什么
文章目录1 8种主流NoSQL数据对比2 数据库 与 数据仓库的本质区别是什么?3 数据埋点是什么?设置埋点的意义是什么?1 8种主流NoSQL数据对比8种主流NoSQL数据对比2 数据库 与 数据仓库的本质区别是什么?数据库 与 数据仓库的本质区别是什么?3 数据埋点是什么?设置埋点的意义是什么?数据埋点是什么?设置埋点的意义是什么?4 PV、UV、IP分别是什么意思? PV、UV、IP分别是什么意思?...原创 2020-12-13 21:10:00 · 95 阅读 · 0 评论 -
Datawhale 实践项目 天池赛中零基础入门推荐系统 Task05:排序模型+模型融合 笔记[让我看看]
文章目录1. 排序模型1.1 读取排序特征1.2 返回排序后的结果1. 排序模型通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是原创 2020-12-04 22:55:18 · 589 阅读 · 0 评论 -
Datawhale 实践项目 天池赛中零基础入门推荐系统 Task04:特征工程 笔记[让我看看]
文章目录1 制作特征和标签, 转成监督学习问题1.1 导包1.2 df节省内存函数1.3 数据读取1.3.1 训练和验证集的划分1.3.2 获取历史点击和最后一次点击1.3.3 读取训练、验证及测试集1.3.4 读取召回列表1.3.5 读取各种Embedding查看'30760'表示的词向量1 制作特征和标签, 转成监督学习问题我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着原创 2020-12-02 22:19:54 · 252 阅读 · 0 评论 -
Datawhale 实践项目 天池赛中零基础入门推荐系统 Task03:多路召回 笔记[让我看看]
文章目录1 前言2.导包3.读取数据4.工具函数5.计算相似性矩阵我敲不过来了[我太菜了],才到一半,我留坑,ballball不要抱我出群1 前言所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,原创 2020-11-30 22:07:31 · 314 阅读 · 0 评论 -
python中将npz类型的数据读取出来 并将其存储在excel表格
1 导包import xlwings as xwimport pandas as pdimport numpy as np2 以国民经济核算季度数据.npz为例子先上图存储为excel成功后数据长什么样子data = np.load('./data/国民经济核算季度数据.npz')读取进来查看不了,可以用files()看看有什么data[‘columns’]存储的是数据标签,即是列索引3 先将数组存储的变成DataFramedata_new = pd.DataFrame(dat原创 2020-11-30 11:28:31 · 5027 阅读 · 0 评论 -
Datawhale 实践项目 天池赛中零基础入门推荐系统 Task02:数据分析 笔记[让我看看]
[让我看看谁那么帅]标题原创 2020-11-26 11:46:47 · 280 阅读 · 0 评论 -
Datawhale 实践项目 天池赛中零基础入门推荐系统 Task01 赛题理解+Baseline 笔记[让我看看]
[让我看看谁那么帅]1赛题理解+Baseline1.1 赛题理解1.2 赛题简介1.3 数据概况`1.5 评价方式理解1赛题理解+Baseline1.1 赛题理解赛题理解是切入一道赛题的基础,会影响后续特征工程和模型构建等各种工作,也影响着后续发展工作的方向,正确了解赛题背后的思想以及赛题业务逻辑的清晰,有利于花费更少时间构建更为有效的特征模型, 在各种比赛中, 赛题理解都是极其重要且必须走好的第一步, 今天我们就从赛题的理解出发, 首先了解一下这次赛题的概况和数据,从中分析赛题以及大致的处理方式,原创 2020-11-23 17:15:50 · 305 阅读 · 0 评论 -
python实践项目 航空公司客户价值分析
[让我看看]目录前言学习目标1.了解航空公司现状与客户价值分析任务描述与分析1.1前言信息时代的来临使得企业营销焦点从产品转向了客户,客户关系管理(Customer relationship management ,CRM)成为企业的核心问题。客户关系管理的关键问题是客户分群。通过客户分群,区分无价值客户和高价值客户。企业针对不同价值的客户定制优化的个性化服务方案,采取不同营销策略,将有限营销资源集中于高价值客户,实现企业例利润最大化目标。准确的客户分群结果是企业优化营销资源分配的重要依据,客户分群越来原创 2021-01-01 15:38:56 · 6208 阅读 · 8 评论 -
jupyter notebook 中运行展示控制行的数量
pd.set_option(‘max_rows’, 5)箭头所的数字是设置展示5行,修改其参数可以改变展示行数,例如改为10设置展示全部pd.set_option(‘display.max_rows’, None)如果行数过多,例如几十万行,run出的结果会比较慢,然后又不方便写其他代码,建议可以两条命令组合使用,亲测有用...原创 2020-11-15 21:52:55 · 1148 阅读 · 0 评论 -
数据分析中什么是用户画像
原创 2020-10-24 20:53:50 · 244 阅读 · 0 评论 -
Kaggle平台Titanic生存率预测项目(TOP3%)
转自知乎 点我!转载 2020-10-07 14:31:08 · 323 阅读 · 0 评论 -
模拟退火算法详细思维导图
原创 2020-08-18 20:17:05 · 566 阅读 · 0 评论 -
初初初级数据分析学习技能树
小白一枚~求带走原创 2020-08-18 11:26:51 · 208 阅读 · 0 评论 -
天池中的短租listing数据分析(探索性数据分析+简单建模尝试)脑图
原创 2020-08-18 11:24:09 · 403 阅读 · 0 评论 -
数据分析中质量保障流程和制度
原创 2020-08-18 11:22:13 · 198 阅读 · 0 评论 -
python中的位运算详细版
原创 2020-08-08 17:31:03 · 438 阅读 · 0 评论 -
数据挖掘与数据化运营实战12章-15章思维导图
原创 2020-07-30 21:25:05 · 182 阅读 · 0 评论 -
python中使用agg方法聚合数据
使用agg方法聚合数据agg,aggregate方法都支持对每个分组应用某函数,包括Python内置函数或自定义函数。同时这两个方法能够也能够直接对DataFrame进行函数应用操作。在正常使用过程中,agg函数和aggregate函数对DataFrame对象操作时功能几乎完全相同,因此只需要掌握其中一个函数即可。它们的参数说明如下表。**DataFrame.agg(func, axis=0, *args, **kwargs)DataFrame.aggregate(func, axis=0, *ar原创 2020-11-20 10:14:00 · 28374 阅读 · 5 评论 -
python中遍历字典
item()方法dic={"小明":"1", "小红":"2", "小光":"3"}for key, value in dic.items(): print(key,value)列表中count()方法数一下列表中某一个元素出现的次数l=[]l.count(某元素)print('abclabclabc'.count('a', 0, 5))>> 2print('abclabclabc'.count('a', 0,)) # 省略结束下标>> 3print('abc原创 2020-10-13 17:36:38 · 160 阅读 · 0 评论 -
python中 if not 的具体用法和注意事项 (判断是否为空)
点击跳转 转载 python if not转载 2020-06-13 09:21:12 · 1502 阅读 · 0 评论