
数据处理
Yolo_C
奋斗在bug与debug之间
展开
-
Pandas系列-DataFrame转字典dict类型
数据处理中经常需要将pandas中的DataFrame类型转dict类型常用的格式主要有以下三种按列转成一个dict,keys是df的columns,values是一个带index的dictimport pandas as pddf = pd.DataFrame({"name":["a","b","c"],"score":[2,3,5]})df.to_dict(orient="dict...原创 2020-03-17 15:33:17 · 1285 阅读 · 0 评论 -
pandas系列-DataFrame合并的方式(merge,join,concat)
pandas中合并多个DataFrame的多种方式:merge合并是根据某列中相同的值进行合并join是左右合并多个DataFrame,相当于合并了多个列concat 可以把多个列名相同的DataFrame合并,可以设置行合并还是列合并1. merge(根据相同的列值连接合并)how=连接方式on=合并列名默认内连接方式为内连接不设置只考虑key列中共同有的值df1 = pd...原创 2020-01-30 20:40:25 · 7222 阅读 · 1 评论 -
python scipy.sparse稀疏矩阵
官方文档的搬运工coo_matrixcsr_matrixcsc_matrix原创 2020-01-25 23:57:06 · 603 阅读 · 0 评论 -
numpy常用命令
官方文档的搬运工numpy.random.choice生产一系列随机数numpy.random.choice(a, size=None, replace=True, p=None)parameter介绍a: 数组或者整数:如果是数组则从其中采样,若是整数则从range(a)中进行采样size:生成随机数的个数replace:是否重复采样p:a中每个元素的权重=被pic...原创 2020-01-22 00:26:39 · 300 阅读 · 0 评论 -
打印代码运行时间的装饰器
python 打印函数运行时间的装饰器装饰器代码import timedef func_runtime(func): def wrapper(*args,**kwargs): t1 = time.time() func(*args,**kwargs) t2 = time.time() print('%s costs : ...原创 2020-01-21 23:53:28 · 329 阅读 · 0 评论 -
python simhash计算相似度
simhash 应用场景大规模文本去重、检索,召回一些候选文本原理这篇博客讲的挺清楚的https://www.iteye.com/blog/aoyouzi-2313164用python 可以直接调用计算from simhash import Simhashs1= "这里是中央电视台2020年春节联欢晚会直播现场"s2 = "佟丽娅将主持2020年春节联欢晚会"s3 = "去年的主持人...原创 2020-01-20 21:03:24 · 1205 阅读 · 0 评论 -
sklearn计算余弦相似度
余弦相似度公式就不再说了sklearn可以直接调用import numpy as npfrom sklearn.metrics.pairwise import cosine_similaritya1 = np.array([[1, 2, 3], [4, 5, 6]])a2 = np.array([[1, 2, 3], [1, 2, 4]])print(cosine_similarit...原创 2020-01-20 20:52:45 · 1658 阅读 · 0 评论 -
flashtext实现高效的关键词匹配
最近的一个项目中需要从大量的文本数据中匹配上百万个关键词,为了提高效率,抛弃了正则表达式,使用了flashtext,真香,具体操作 参考了这篇博客https://blog.youkuaiyun.com/sinat_26917383/article/details/78521871...转载 2020-01-18 23:24:59 · 827 阅读 · 0 评论