
python自然语言处理
hozhangel
这个作者很懒,什么都没留下…
展开
-
Chinadaily双语新闻爬取
今天临时需要爬取一些双语资料(尚未清洗)需要充分利用下边代码是想拿到Chinadaily网页中每篇双语新闻的链接,首先研究这些网页的网址和网页结构,包括翻页一般是首页网址加上_2,_3...等等。所以以下代码只是拿到链接。#!/usr/bin/env python# -*- coding: utf-8 -*-"""File: bi_news.pyAuthor: Zhan...原创 2018-05-04 15:24:00 · 2410 阅读 · 0 评论 -
python判断句子是否匹配某种模式
re.search是字符串里面存在某种正则if re.search(r"^\s{0,}\(([a-zA-Z]|\d+)\)", en): lines.append(ch + '|||' + en +'\n') re.match是整个字符串匹配if re.match(r".*\|\|\|.*", line): re.findall可能得到的是数组...原创 2017-12-15 15:33:00 · 5686 阅读 · 0 评论 -
Python中文文件读写&参数传递
文本一些冗余标点符号清洗#encoding=utf-8import sys import reoutfile = 'result.txt'file = sys.argv[1] if len(sys.argv) > 2: outfile = sys.argv[2]print("Deading" + file + " now...\n")lines ...原创 2017-12-11 14:31:00 · 516 阅读 · 0 评论 -
python正则
\d 匹配一个数字\w 匹配一个字母或数字. 匹配任意字符* 表示任意个字符(包括0个),+ 表示至少一个字符? 表示0个或1个字符^ 表示行的开头$ 表示行的结束\s 匹配一个空格(也包括Tab等空白符)\s+ 表示至少有一个空格| A|B可以匹配A或B,...原创 2017-12-08 19:34:00 · 159 阅读 · 0 评论 -
python-jieba 安装+分词+定位
安装:https://github.com/fxsjy/jieba下载安装包 解压后 进入文件夹 cmd运行:Python setup.py install使用:分词:(test.py)import jiebaresult = jieba.cut("我叫张海鸥")print("/".join(result))>>>我/叫/张/海鸥 分词+...原创 2017-12-04 16:05:00 · 459 阅读 · 0 评论 -
64-bit_windows__nltk。。。
过程很坎坷 最终成功的步骤:windows nltk安装Python 3.5(自带pip)python -m pip install -U pip (pip升级)添加pip.exe路径,在Python安装目录/script目录下载相应版本的numpy安装包,whl文件 在网站https://pypi.python.org/pypi/numpy下与python版本对应的whl...原创 2017-11-27 13:12:00 · 183 阅读 · 0 评论 -
nltk.download()
在自己电脑上安装python的nltk包之后,进入pythonimport nltknltk.download()然后选择下载所有,下载了四个多小时。。终于下载好了(显示:占用空间3.25 GB (3,495,780,352 字节))(之间几度以为他卡了,看了下载地址的文件包占用空间慢慢变大,知道他一直在下载而不是卡了,就一直等到他下载完) ...原创 2017-11-29 17:40:00 · 5369 阅读 · 0 评论 -
Python读写文件 中文正则匹配
读写文件 中文正则匹配 好麻烦 代码很短 错误调了很多#!/usr/bin/env python#encoding: utf-8import ref=open('10000.txt','r', encoding='UTF-8')f1=open('result.txt','w')for line in f.readlines(): ss = line.split('||...原创 2017-11-30 18:23:00 · 282 阅读 · 0 评论