- 博客(13)
- 资源 (4)
- 收藏
- 关注

原创 python实现隐马可夫算法和维特比算法,用于中文标注
(一)算法介绍隐马尔可夫模型(HMM)就是估算隐藏于表面事件背后的事件的概率模型。一般包含观测序列,隐序列,转移概率分布,发射概率分布以及初始状态。维特比(viterbi)算法属于隐马尔可夫模型中的对于解码时的一种算法,依据最后一个时刻中概率最高的状态,逆向通过找其路径中的上一个最大部分最优路径,从而找到整个最优路径。(二)算法原理假设观测序列长度为T,隐序列长度为N,Vt[s,t]表示在...
2020-04-08 23:59:48
663

原创 MatchZoo进阶——自动调参方法
本人在这里已经给出了MatchZoo的一个简单上手,这一次我会给出为模型自动调参的方法。这一次使用的变量,和简单上手中的变量是一样的,所以我都是直接复制,并删掉一些不需要的地方。加载数据:train_pack_processed = preprocessor.fit_transform(train) # 其实就是做了一个字符转id操作,所以对于中文文本,不需要分词dev_pack_pro...
2019-12-25 11:16:53
570
2

原创 中科院深度文本匹配开源项目MatchZoo简单上手
MatchZoo是一个Python环境下基于TensorFlow开发的开源文本匹配工具,让大家更加直观地了解深度文本匹配模型的设计、更加便利地比较不同模型的性能差异、更加快捷地开发新型的深度匹配模型。文本匹配包含了文本相似度、文本蕴含、问答匹配等问题,在这里,我会简单的使用微软公开的MSR数据集进行相似度计算解说,代码由本人参考matchzoo官方的解说完成的,如果有什么错误,请大胆指出,我会进...
2019-12-23 17:44:12
1650
2

原创 python简单思维实现K-means
自己定义了几个点,随机选择初始中心,也可以random去选取#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport mathdata = [[2, 10], [2, 5], [8, 4], [5, 8], [7, 5], [6, 4], [1, 2], [4, 9]]cluster_center = [[2, 1...
2019-10-30 22:07:58
138

原创 python实现概率最大中文分词算法
需要环境:python3.x,numpy,pandas需要文档:中文词典和对应的词频,中文词的个数尽可能多,最好计算该文档的语料库足够大样例如下:#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport pandas as pdimport numpy as npclass Pwms(object): ...
2019-10-16 14:24:03
767

原创 python实现正向最大匹配算法和反向最大匹配算法
正向最大匹配算法:从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词,并且要做到最大匹配。反向最大匹配算法:从右到左将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词,并且要做到最大匹配。这份代码对正向最大匹配算法和反向最大匹配算法进行封装,需要在代码的目录下存放一份词典,词典取名为:chineseDic.txt。样例如下:冮,nr劼人,nr勍,...
2019-10-06 21:29:07
2669

原创 安装stanfordnlp以及简单使用
请注意:不是stanfordcorenlp如果直接在CMD下,pip install stanfordnlp,我遇到了这个错误:于是我直接下载torch也遇到了错误,所以我在conda下,建立了一个虚拟环境,conda create -n pytorch python=3.6 //创建虚拟环境activate pytorch // 激活虚拟环境conda install torch ...
2019-09-10 22:31:55
1156
1

原创 使用WikiExtractor提取维基百科语料
WikiExtractor的链接:https://github.com/attardi/wikiextractor需要的环境官网有写明:The tool is written in Python and requires Python 2.7 or Python 3.3+ but no additional library.意思是:基于python2.7或python3.3, 且不需要依赖于第...
2019-08-29 14:55:38
3309
14

原创 python爬取百度图片——翻页式网站爬取
小编大约于这个月月初写的这一份代码,但很不幸,大概20号,再次找百度图片翻页流的时候,发现是瀑布流且回不去了,还好代码里面留了翻页流的网址所以,现在来分享给大家。语言:python3.6库:requests, re, urllib除了requests需要pip install之外,其他两个是python自带的模块,直接调用即可。代码中的原网址:https://image.baidu.co...
2019-08-26 22:07:42
459

原创 继微信大更新之后,爬取微信文章+评论
微信于2018年12月21号发布了7.0.0的版本,微信手机端界面及相关链接结构改变巨大,之前的fiddle抓包爬取微信文章评论可能不适用,在此,可以直接使用网页进行微信文章+评论的爬取,不需要抓包。本文以爬取优快云的公众号文章+评论为例。将任意一篇优快云的文章用浏览器打开。刷新网页,在Network中找到appmsgreport?action(通常是在最下面)在之前的fiddle抓包...
2019-05-21 16:00:13
1922
7

原创 基于维基百科构建平行语料库
本文辅助有需求人士建立平行语料库。工具GitHub链接https://github.com/clab/wikipedia-parallel-titles第一步:从” https://en.wikipedia.org/wiki/List_of_ISO_639-2_codes” 上查看自己选的小语种的639-1码第二步:假设我要做的是阿拉伯-英语平行语料库,阿拉伯语的639-1码为ar,英文的为...
2019-04-15 14:20:59
1504
3
原创 Python实现死锁避免算法——银行家算法
在复习操作系统的时候,顺手实现了一遍银行家算法。对于理论,本人理解了,也根据书本提供的文字描述用Python实现了一遍,虽然网上已经有很多相同的例子,但为了理解透彻,自己实现了一遍。#!/usr/bin/env python3# -*- coding: utf-8 -*-""" @Author ChenYuan @Name 银行家算法.py @Describe @Version 1.0"""import numpy as npclass BankerAlgo
2020-07-20 13:06:57
843
原创 python爬取中关村手机信息
需要环境:python3.x,requests,pandas, lxml,re在这里我爬取了中关村手机信息的手机型号、手机图片、参考价格、京东价格、CPU型号、后置摄像头像素、前置摄像头像素、电池容量以及屏幕尺寸#!/usr/bin/python3# -*- coding:utf-8 -*-# Author:ChenYuanimport requestsfrom lxml import...
2020-04-09 00:28:53
2302
11
MSR Paraphrase Corpus data.zip
2019-12-23
python-readability
2019-03-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人