Python文本处理常用代码总结(二)

博客总结了Python文本处理的常用技巧,包括在Java中调用Python、命令行调用Python代码、文本处理的常见操作如去除空格、列表操作、正则表达式等,并强调了NLP任务的程序设计重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、两步在java中调用python

1、在大类中加入这样的一个方法

	private static boolean CallPython(String string) throws Exception{
		Process proc = Runtime.getRuntime().exec(string);  
		proc.waitFor();	
		return true;
	}

2、在main函数中直接使用调用语句

	CallPython("python py_java/***.py");

二、使用命令行调用python代码:



三、常用常识不再一一列举(按照使用频率排序)


去除多余的空格:strip

列表添加.append

替换:replace

循环语句: for a in list: list可以来源于读文件readlines(),也可以是上述.append得到的列表,也可是是range(len(...))

将序列中元素通过制定的字符串连接''.join(list类型)

去重 words=set()

正则表达式中常用 re.match()/re.search() group(); re.sub(old, new, text) re.compile()

如何读取二进制文件存在变量中

去除中文的Python正则表达式:string = re.sub(ur"[^\u4e00-\u9fa5]", " ",string),java是nativeStr.split("[^\\u4e00-\\u9fa5]")

四、排序

dict= sorted(result.iteritems(), key=lambda d:d[1], reverse = True) #返回时列表 for key,val in dict:无items

import operater

sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True) 返回是矩阵直接去 sortedClassCount[0][0]

五、写NLP任务python程序设计:重要的是设计,这个可以参考kim那篇CNN代码如:变量、参数的设计

如:from collections import defaultdict        vocab = defaultdict(float)                for word in words:vocab[word] += 1



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值