
数据处理技巧
shaoqiangaa
自然语言处理和数据挖掘从业者,会发布一些自己工作经验积累下来的方法代码。前期会记录自己处理过的问题和方法,项目经验会后期补上。
展开
-
python包含判断-字符串包含词库中的词
这个方法就是将短文本切分成与词库数据等长的词,判断是否包含。速率块,词与词包含关系判断也可用代码复制直接用:'''判断一条语句是否包含词库中的词'''def word_parameter(word_list): '''包含关系方法所需的词典''' word_set = set(word_list) num_list = [len(word) for word in word_set if len(word)>0]#词库字数 num_list = li...原创 2020-12-04 11:44:03 · 1571 阅读 · 0 评论 -
dataframe在Mysql中批量修改——pymysql、pandas
根据id修改数据库的某一列(for 循环执行语句大批量修改是不行的)1、连接数据库2、sql语句 ①创建临时表(关键字Temporary,处理完自动删除的表) ②批量插入临时表,ID是int类型也用%s(用到了pymysql的excutemany) dataframe转化成特殊list类型 ③根据ID修改操作的字段,我这里是nlp_name_semantics_v33、...原创 2018-07-07 18:13:17 · 4784 阅读 · 0 评论 -
java调用python、anaconda
java调用python(含anaconda)注意:1、python脚本必须都用的是绝对路径(可以拼接)2、python脚本调用自定义的模块时要将模块路径添加到环境中。如果用sys.append(模块绝对路径),要每一个脚本都要添加项目所在的路径。cmd命令行执行: 环境路径 空格 项目路径用Runtime.getRuntime().exec()(特别提示:如果想用jyt...原创 2018-07-07 15:43:05 · 3506 阅读 · 7 评论 -
读取数据报错:[Errno 22] Invalid argument
pandas文件报错是因为‘\’转移字符的问题,路径C:\\Users\shaoqiang\Desktop\\village3.xlsx\v制表符,可用'/'或'\\'原创 2018-04-12 10:27:56 · 14993 阅读 · 1 评论 -
数据处理——列表remove和copy共用的必要性(或list2 = list1[:] )
列表复值不能创建两个列表,如图中实例所示。也可list3 = list1[:]创建两个列表。 图一 图二...原创 2018-02-06 10:37:30 · 348 阅读 · 0 评论 -
数据处理——pandas日期时间
1、批量删除时间保留日期data1['受理时间'].dt.normalize()链接:http://blog.youkuaiyun.com/pipisorry/article/details/52209377转载 2018-02-06 11:36:30 · 1068 阅读 · 0 评论 -
数据处理——pandas替换科学计数法数字
用pandas读取数据时发现工单编号、电话号码等变成科学计数法记录。通过观察当电话号码类型是float时采用科学计数法,而int不会。将电话号码转化成int类型(在Excel里电话号码转化成字符串类型也没有解决问题)1、首先要将空值转化成数值,这里我转化成了-1(这里我把data2所有字段都填了-1)data2 = data2.fillna(-1)2、将电话号码字段转化成int类型原创 2018-02-06 10:48:31 · 22013 阅读 · 0 评论 -
数据处理——apply函数匹配库中相等数据(用for循环寻找相等项)
我有一个电话库,需要将某个表中与电话库里相同的表数据取出。我用的是pandas里的Dataframe格式数据,我要将在库里存在的表数据标为1,没有的标为0。我在apply函数应用了for循环对库中所有元素与其比较。这里要十分注意一旦库里存在则标为1并停止循环,否则被标记为1的数会在未停下的for循环里又被覆盖为0。def deal(x): for p in phones:原创 2018-02-06 10:47:08 · 711 阅读 · 0 评论 -
构建行政区域字典‘区‘与‘小区‘划分
我要将最后文字(个数不限,镇、城镇都可)与标准库判断确定地址标签,构建字典形式。但我在判断小区时,区也包含在内。我想把这种包含关系去掉。我在多加一个判断,将区字符的个数在加一,这样就能够区分小区和区的关系代码如下:加了一层判断后:...原创 2018-02-11 10:07:12 · 665 阅读 · 2 评论 -
空值过滤——data[data['索引'].notnull()]无法过滤
进行空值处理时,注意空白是‘’还是None,两者形式一致但在代码中不相等,前者是字符串类型,后者是NoneType。在判断等操作中要十分注意。下面是工作中遇到的这种问题。分类统计也算一类探究原因:最终解决方案...原创 2018-02-09 13:29:11 · 1206 阅读 · 0 评论