
自然语言处理
hozhangel
这个作者很懒,什么都没留下…
展开
-
安装allennlp
安装allennlp github链接 1‘Download and install Conda.下载 运行bash 2、Create a Conda environment with Python 3.6conda create -n allennlp python=3.6{进入anaconda安装目录 }3、Activate the C...原创 2018-08-10 20:52:00 · 3218 阅读 · 0 评论 -
Chinadaily双语新闻爬取
今天临时需要爬取一些双语资料(尚未清洗)需要充分利用下边代码是想拿到Chinadaily网页中每篇双语新闻的链接,首先研究这些网页的网址和网页结构,包括翻页一般是首页网址加上_2,_3...等等。所以以下代码只是拿到链接。#!/usr/bin/env python# -*- coding: utf-8 -*-"""File: bi_news.pyAuthor: Zhan...原创 2018-05-04 15:24:00 · 2404 阅读 · 0 评论 -
fasttext安装
https://github.com/facebookresearch/fastText 安装过程在官网上有详细说明,1、只能在Linux 或 Mac os上使用2、单独安装,或者作为Python包安装注意:1、Linux上安装fasttext时,如果用pip会报错, ImportError: No module named Cython.Build解决方案如下:pip...原创 2018-03-08 11:45:00 · 1698 阅读 · 0 评论 -
词性标注
一些机器翻译方面的教程手把手教你编译MOSES机器翻译系统http://blog.youkuaiyun.com/han_xiaoyang/article/details/10101701http://blog.youkuaiyun.com/hero51/article/details/39709407http://dan-4899.blog.163.com/blog/static/582502372009051...原创 2017-11-28 14:27:00 · 329 阅读 · 0 评论 -
nltk.download()
在自己电脑上安装python的nltk包之后,进入pythonimport nltknltk.download()然后选择下载所有,下载了四个多小时。。终于下载好了(显示:占用空间3.25 GB (3,495,780,352 字节))(之间几度以为他卡了,看了下载地址的文件包占用空间慢慢变大,知道他一直在下载而不是卡了,就一直等到他下载完) ...原创 2017-11-29 17:40:00 · 5362 阅读 · 0 评论 -
Perl 正则匹配——对分词标注结果正则匹配
# 3、A、中文编码 从文件夹读文件 (问原文标记还是输出歧义句子) # 写文件的时候每次文件名字加一(之前有处理过分文件) # B、提取“ |/w |/w |/w”之前的中文句子进行判断 # C、判断分为几个情况 # * 含有“/k” 无操作 # * 含有“/ni” 无操作 # * 只要含有“d” “r” “c” 有歧义 ...原创 2017-11-30 18:26:00 · 269 阅读 · 0 评论