
人工智能,机器学习
文章平均质量分 87
adnb34g
这个作者很懒,什么都没留下…
展开
-
机器学习的趋势和人工智能的未来
机器学习的趋势和人工智能的未来每家公司现在是一个数据公司,在一定范围能够使用机器学习在云中部署智能应用程序,这归功于三个机器学习的趋势:数据飞轮,算法经济,和智能云托管。 有了机器学习模型,企业现在可以快速分析大型,复杂的数据,并提供更快,更准确的见解,没有部署和维护机器学习系统的高成本。“当今建立的每一个成功的新应用程序将是一个智能应用程序,智能构建块和学习服务将是应用程序背...原创 2018-10-10 14:12:08 · 336 阅读 · 0 评论 -
如何在java中去除中文文本的停用词
1. 整体思路第一步:先将中文文本进行分词,这里使用的HanLP-汉语言处理包进行中文文本分词。第二步:使用停用词表,去除分好的词中的停用词。2. 中文文本分词环境配置使用的HanLP-汉语言处理包进行中文文本分词。·HanLP-汉语言处理包下载,可以去github上下载·HanLP的环境配置有两种方式:方式一、Maven;方式二、下载jar、data、hanlp.p...原创 2019-04-30 08:57:49 · 1777 阅读 · 0 评论 -
hanlp 加载远程词库示例
说明·目前的实现方式是以远程词库的内容重新构建CustomDictionary.trie,demo主要是为了实现同步远程词库,对性能暂不作考虑,对性能要求要以CustomDictionary.dat为基础实现按hanlp作者述 trie后期可能会取消目前CustomDictionary使用DAT储存词典文件中的词语,用BinTrie储存动态加入的词语,前者性能高,后者性能低之...原创 2019-04-26 10:55:09 · 995 阅读 · 0 评论 -
HanLP Android 示例
portable版portable版零配置,仅提供中文分词、简繁拼音、同义词等功能。只需在build.gradle中加入依赖:dependencies {compile 'com.hankcs:hanlp:portable-1.6.8'}自定义版HanLP的全部功能(分词、简繁、拼音、文本分类、句法分析)都兼容安卓,具体配置方法如下:...原创 2019-04-17 10:35:50 · 445 阅读 · 0 评论 -
自然语言处理工具python调用hanlp中文实体识别
Hanlp作为一款重要的中文分词工具,在GitHub的用户量已经非常之高,应该可以看得出来大家对于hanlp这款分词工具还是很认可的。本篇继续分享一篇关于hanlp的使用实例即Python调用hanlp进行中文实体识别。想要在python中调用hanlp进行中文实体识别,Ubuntu 16.04的系统环境1. 安装jpype1,在cmd窗口输入 pip install jpype1...原创 2019-02-13 08:54:41 · 1821 阅读 · 0 评论 -
如何使用Hanlp加载大字典
问题因为需要加载一个 近 1G 的字典到Hanlp中,一开始使用了CustomDictionay.add() 方法来一条条的加载,果然到了中间,维护DoubleArraTre 的成本太高,添加一个节点,都会很长时间,本来时间长一点没有关系,只要训练出.bin 的文件,第二次加载就会很快,然而作为以空间换时间的DAT结构,内存消耗很大,预料之内的出现了1 out of memory:...转载 2019-01-23 09:42:30 · 526 阅读 · 0 评论 -
基于结构化平均感知机的分词器Java实现
最近高产似母猪,写了个基于AP的中文分词器,在Bakeoff-05的MSR语料上F值有96.11%。最重要的是,只训练了5个迭代;包含语料加载等IO操作在内,整个训练一共才花费23秒。应用裁剪算法去掉模型中80%的特征后,F值才下降不到0.1个百分点,体积控制在11兆。如果训练一百个迭代,F值可达到96.31%,训练时间两分多钟。数据在一台普通的IBM兼容机上得到:本模块已集成到Han...转载 2019-01-14 09:22:41 · 1187 阅读 · 0 评论 -
HanLP的自定义词典使用方式与注意事项介绍
【环境】python 2.7方法一:使用pyhanlp,具体方法如下:pip install pyhanlp # 安装pyhanlp进入python安装包路径,如/usr/lib/python2.7/site-packages/pyhanlp/static/将http://hanlp.properties.in改名为备份文件。 mv hanlp.properties....转载 2019-01-02 09:36:06 · 1774 阅读 · 0 评论 -
python调用hanlp分词包手记
Hanlp作为一款重要的分词工具,本月初的时候看到大快搜索发布了hanlp的1.7版本,新增了文本聚类、流水线分词等功能。关于hanlp1.7版本的新功能,后面有使用的到时候在给大家分享。本篇分享一个在python里调用hanlp分词包的过程文章,供需要的朋友参考学习交流!以下为文章内容:1.在python下安装pyhanlpsudo pip install pyhanlp(...转载 2018-12-26 09:32:11 · 722 阅读 · 0 评论 -
pyhanlp 共性分析与短语提取内容详解
简介HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者的原文中,有几个问题,为了便于说明,这里首先给出短语提取的原理。在文末在给出pyhanlp的调用代码。共性分析 互信息mi,左熵lr,右熵re,详细解释见下文信息论中的互信息 一般而言,信道中总是存在着噪声和干扰,信源发出消息x,通过信道后信宿只...转载 2019-01-04 09:19:51 · 1229 阅读 · 0 评论 -
简单有效的多标准中文分词详解
简单有效的多标准中文分词详解本文介绍一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能,在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。(相关内容已经集成到大快的hanlp中,代码和语料可访问github上的hanlp开源项目主页查询)...转载 2018-12-28 11:13:22 · 451 阅读 · 0 评论 -
MapReduce实现与自定义词典文件基于hanLP的中文分词详解
前言:文本分类任务的第1步,就是对语料进行分词。在单机模式下,可以选择python jieba分词,使用起来较方便。但是如果希望在Hadoop集群上通过mapreduce程序来进行分词,则hanLP更加胜任。一、使用介绍hanLP是一个用java语言开发的分词工具, 官网是 http://hanlp.com/ 。 hanLP创建者提供了两种使用方式,一种是portable简化版...原创 2018-10-15 13:42:58 · 227 阅读 · 0 评论 -
自然语言处理工具python调用hanlp的方法步骤
Python调用hanlp的方法此前有分享过,本篇文章分享自“逍遥自在017”的博客,个别处有修改,阅读时请注意!1.首先安装jpype首先各种坑,jdk和python 版本位数必须一致,我用的是JPype1-py3 版本号0.5.5.2 、1.6jdk和Python3.5,win7 64位下亲测没问题。否则死翘翘,有可能虚拟机都无法启动:出错调试,原因已说;测试成功会有输出...转载 2019-07-17 09:22:29 · 454 阅读 · 0 评论