- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 毕设数据处理记录:python从字典中找出前n个累加和大于某阈值的解决方法
python从字典中找出前n个累加和大于某阈值的解决方法问题背景:最近在做硕士毕业大论文的数据处理等工作,其中需要从一个经过降序排列的excel中的topic、value两列找出累加和大于设定阈值的前n项所对应的topic项表格如下:输出文件是一个DataFrame类型,有三列数据,分别为[‘author’,‘topic’,‘value’]现在就要把value列数值累加和大于0.8(设定的阈值)所对应的topic取出来,并且放到一个列表中,供后续数据处理任务使用。直接上代码:# 定义一个函数
2021-05-27 20:50:06
737
2
原创 解决pycharm下不能导入同个文件夹下其他函数的问题
首先,检查一下各个文件的命名是否规范,尤其是文件名中不能有空格!!!然后,如果import无法导入,就右键该文件夹Mark Directory as–Sources Root之后就可以愉快的导入了写论文时候遇到的问题,记录一下...
2021-05-17 22:17:23
1317
原创 A/B Test的一些简单认识
A/B TestQ:A/B测试是什么?A:放在业务逻辑中,简单说就是为了确定哪种方案或设计或者功能能够更好地实现业务的目标(比如更多的用户注册,更多用户点击率、顾客的下单次数),放统计学里有点类似于常说的假设检验,放医学方面类似于常说的临床试验。Q:A/B测试可以干什么?怎么做?A:举个例子,比如现在UI设计师拿来两套公司官网页面设计方案,常见的方案选定方法是在公司内部讨论后再找个稍微懂点审美的部门领导直接拍板上线,这种就是比较感性的方案决策过程,至于上线之后的效果好不好完全看命emmmmm,但是现
2020-08-07 12:58:24
414
原创 利用Pandas分块读取一个数个G的CSV文件
**利用Pandas读取数个G的文件**数据分析时难免会遇到好几个G的大型数据文件,如果利用传统的with open as file的方式很容易造成卡顿,所以建议使用Pandas库并且分块读取文件,这么做可以不让文件一次性写进到内存中,防止占用大量内存import pandas as pddf =pd.read_csv('filepath',chunksize=100)#chunksize定义一次读取的块的大小,即一次读取多少行数据for chunk in df: print(df)
2020-08-07 00:05:43
1107
原创 ElasticSearch的安装与使用+学习随记
ElasticSearch搜索技术一、简介1.1 what is ElasticSearch(ES)?百度解释:ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到...
2020-02-27 20:41:45
265
原创 在Fragment中获取SharedPreferences的数据
在Android中经常使用Fragment进行界面的设计,最近做毕设时候正好想从本地简单存储中读取到保存的值并在界面上显示出来,一开始觉得没啥的,就是getSharedPreferences就行了,但是之前都是在Activity中使用,毕设系统有Fragment开发的界面,在这样用就不行了,需要在前面加上一句getActivity()就行了,然后在调用getSharedPreferences,记录...
2019-05-13 14:26:39
4423
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人