- 博客(48)
- 资源 (31)
- 收藏
- 关注

原创 朴素贝叶斯分类器就是数数
本篇文本是传统机器学习分类方法的最后一篇。从打算开始写这一系列文本到今天差不多3个月的时间,其间也在关注博客的阅读量,发现反倒是Linux系统编程的文本阅读量更大,大概是分类博客的10倍。从这个侧面也大概看出当前从业者或者说大部分速成班都在干什么。最近也看到了人工智能领域的一些公司裁员。庆幸自己是从单片机误打误撞进来的。写下面的话,并不想发牢骚,只是陈述事实而已。从高考谈起。有的时候,当你太在乎一...
2018-12-15 10:47:35
1776

原创 Linux系统编程总结
Linux系统编程总结1. Linux指令压缩解压缩指令2. sed指令3. awk指令4. 软件安装与配置5. C++6. Java7. Python8. Shell新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可...
2018-10-14 16:57:35
10794
1

原创 SRILM使用之用平滑Katz回退训练语言模型
问题:考虑用下面的测试文件,测试上面的模型cat test_coupus2.txt birds chirpngram -lm corpus.lm -ppl test_coupus2.txt -debug 2使用catzs回退方法,进行模型训练 要旨:对于次数较少的N-gram组,将其概率减少,减少的概率分配给训练集中没出现的N-gram组。ngram-count -text corpus.txt
2016-08-28 22:54:54
3313
2

原创 SRILM使用之训练无平滑语言模型
【语料准备】 训练语料wget http://idiom.ucsd.edu/~rlevy/teaching/2015winter/lign165/lectures/lecture13/toy-example/corpus.txt测试语料wget http://idiom.ucsd.edu/~rlevy/teaching/2015winter/lign165/lectures/lecture13/t
2016-08-28 22:39:09
1888

原创 SRILM使用之Ubuntu环境搭建
参考:http://www.52nlp.cn/ubuntu-64-bit-system-srilm-configuration/comment-page-1 http://blog.youkuaiyun.com/wwjiang_ustc/article/details/50317691 tcl下载链接: http://www.tcl.tk/software/tcltk/download.html【安装必要开
2016-08-28 22:28:27
1674

原创 树的括号表示
1、树的线性表示 树型结构和线性结构的主要区别在于树型结构具有分支性和层次性。使用树的遍历操作,可以将树中的结点按照规定的顺序排成一个线性序列;然而仅凭借树的某种遍历序列有时无法唯一地确定一棵树,但只要在遍历序列的基础上增加一些附加信息便可以唯一地确定一棵树,从而得到树的线性表示。树的线性表示便于树的输入、输出,同时在存储时也比较节省空间。2、树的括号表示规则(1)若树T为空树,
2015-01-22 16:09:39
16340
原创 网页设计与开发-实验报告-6和8
CSS构造;CSS的定义与使用;CSS字体与文本属性;CSS的绝对定位与相对定位;CSS的文字及超级链接控制;CSS列表与DIV的应用
2022-10-25 19:06:10
445
原创 网页设计与开发-实验报告-2
HTML文件的基本结构;标记及属性的使用规则;编写简单HTML文件的方法;设计一个具有HTML基本结构的页面,并显示出来。
2022-10-22 09:16:52
403
原创 商品近义词抽取
[1] 候选词筛选(3-4字检索词+物品词+品牌词)[2] 近义词抽取方法1 A 候选词1 B 在标题中出现3次以上,A候选词2 B 在标题中出现3次以上,认为候选词1和候选词2构成近义。即在相同的上下文中出现的词语认为是近义词[3] 近义词抽取方法2 ,前缀 候选词在标题中出现3次以上,候选词 后缀 在标题中出现3次以上,认为前缀和后缀构成近义。即同一个候选词的高频前后缀认为是近义词...
2018-12-26 16:50:44
1134
原创 自然语言处理——词法分析
原理篇分句详解隐马尔科夫模型原理最大熵模型原理条件随机场原理实践篇NLTK中的无监督断句模型中文错别字识别商品近义词抽取
2018-12-26 16:48:58
1111
原创 C/C++面试易错
客观题可以在一个函数中定义另一个函数错。C/C++不支持嵌套函数main函数必须放在其他函数之前错。main函数可以放在任意位置,但是必须保证main函数内部调用的函数,在main之前进行声明或定义构成C++语言程序的基本单位是类对。所有被调用的函数一定要在调用之前进行定义。错。可以定义也可以声明声明一个指向含有10个元素的数组的指针,其中每个元素是一个函数指...
2018-12-09 16:46:12
2052
原创 JavaWeb学习笔记
1. 自己动手写一个Web服务器import java.io.FileInputStream;import java.io.IOException;import java.io.OutputStream;import java.net.ServerSocket;import java.net.Socket;public class Server{ public static...
2018-12-06 23:34:29
206
原创 支持向量机是怎么画分类平面的?
支持向量机是怎么画分类平面的?#coding:utf-8"""损失函数形式的支持向量机演示算法"""import numpy as npfrom matplotlib import pyplot as pltfrom matplotlib.colors import ListedColormap# 线性支持向量机模型class LinearS...
2018-11-11 15:36:29
1803
原创 文本分类——简化版的LibSVM之LibLinear
liblinear使用1. 什么情况下使用Liblinear?什么情况下使用Libsvm?2. 可参考的文档和网址3. 约束优化问题转换为等价的无约束优化问题4. 数据预处理(文本)5. 优化问题求解器的选择(一般使用默认值-s 1)6. 惩罚参数C选择(一般使用默认值 –c 1)7. 多分类实现8. svm-scale用法9. train用法10. predict用法11. 使用举例1. NEW...
2018-09-23 10:51:14
1178
原创 文本分类——脸书的高效杰出工具fastText
脸书的高效杰出工具fastText1. fastText介绍2. fastText文档3. fastText文本分类教程(1) P@n和R@n的意义(2) 选项(3)官网厨具分类例子4. List item 中文新闻分类例子1. fastText介绍fastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在学术上并没有太大创新。但是它的优点也非常明显,在文本分类任务...
2018-09-22 19:37:43
1037
原创 文本分类——怎么评价训练出的分类模型?
模型的评价就是对模型的准确性和覆盖性的评价。 1. 当然最保险的方法是抽取大量预测实例,进行人工校对。原因是第1实际应用中没有太多的标注测试集可用。第2当预测的实例类别分布不均衡时,很可能导致评价出的结果不能反映真实的准确性。 2. 使用交叉验证调试模型。交叉验证只适用在模型的训练阶段,也就是说要把语料分成3部分,第1部分作为训练集用来训练模型;第2部分作为验证集用来调试模型;第...
2018-09-16 12:15:23
1554
原创 文本分类——怎么将二分类模型应用到多分类问题?
怎么将二分类模型应用到多分类问题 二分类模型数量众多,但实际应用中往往待预测类别数量不只有2个,于是有了一些将二分类模型应用到多分类的方法。常见二分类模型One-vs-RestOne-vs-OneDirected Acyclic Graph Method常见二分类模型逻辑回归单层感知机支持向量机One-vs-Rest如果有k个类别要预测,...
2018-09-16 11:05:29
6024
2
原创 自然语言处理——文本分类
文本分类是自然语言处理中的一个重要应用。也是学习了机器学习各种模型后,最好的一个实际运用。之前也写了一些文章,但是都是断断续续,从来没有写成系列。这两年的工作,总算是有机会轮到我做一些应用NLP技术的工作。最近喜欢上边开发边写ppt,伴随着梳理资料,回忆以前的工作,想着写一写总结。我不是数学专业,数学也不好,而且从来不愿意推公式。近几年看书感觉不再云里雾里,应该是该写的书都被写出来了,所以大家都开...
2018-09-15 17:32:37
2968
原创 文本分类——什么是数据线性可分?
分类问题是当下最热的机器学习的一种应用。分类问题主要有三个关键点,分别是数据、模型和评价。数据的好坏关系到模型的准确性,在实际应用中往往会发现,影响系统准确性的因素,往往不是使用了多少不同的分类模型,而是训练数据。本文介绍数据的一个方面即数据的线性可分性。学过函数的话,一定知道函数可以分为线性函数和非线性函数。在直角坐标系中,对函数描点作图为直线的话,就是线性函数;为曲线的话,就是非线性函数。...
2018-09-15 17:11:27
5481
原创 Numpy简介
asytpe方法asytpe方法In [1]: import numpy as npIn [2]: array1 = np.array([1, 2, 3, 4, 5])In [3]: array1Out[3]: array([1, 2, 3, 4, 5])In [4]: array1.astype('str')Out[4]: array(['1', '...
2018-08-15 12:45:57
436
原创 Python基础知识
Python基础知识Python基础知识回调函数闭包关键词yield遍历函数(map)筛选函数(filter)累计函数(reduce)回调函数回调函数又叫函数回调,指的是将函数作为参数传递到另外的函数中执行。#coding:utf-8"""回调函数示例"""def func(fun, args): fun(args)de...
2018-08-15 12:39:04
185
原创 Python Spark的介绍与安装
Python Spark的介绍与安装1. Spark的Cluster模式架构图2. Cluster Manager的运行模式(1) 本地运行(Local Machine)(2) Spark Standalone Cluster(3) Hadoop YARN(Yet Another Resource Megotiator)(4)在云端运行3. Scala的介绍与安装(1)下...
2018-07-22 10:43:42
2129
原创 Hadoop Single Node Cluster的安装
本文参考林大贵实现Hadoop Single Node Cluster的安装,安装步骤如下:1. 安装JDK(1)到官网下载jdk最新版 http://www.oracle.com/technetwork/java/javase/downloads/index.html(2)将下载的压缩包文件拷贝到/usr/loacal/,解压缩,建立链接,更改目录所有者。(3)配置环境变量...
2018-07-21 20:24:41
945
1
原创 第3章 加工原料文本
1、定义一个字符串s=’colorless’。写一个Python语句将其变为’colourless’,只使用切片和连接操作。>>> s = 'colorless'>>> s = s[:4]+'u'+s[4:]>>> s'colourless'2、我们可以使用切片符号删除词汇形态上的结尾。例如’dogs’[:-1]删除了dogs的最后一个字符,留下dog。使用切片符号删除下面这些词的词缀(我们插
2016-08-19 22:37:29
1108
原创 第2章 获得文本语料和词汇资源
时间所限,仅对自己用到的习题做了整理解答,如果想知道其他题目的答案,请留言,我会不定期查看博客的。^_^。希望大家多多与我交流意见,我会继续努力写的。 1. 创建一个变量phrase包含一个词的链表。实验本章描述的操作,包括加法、乘法、索引、切片和排序。 ”’ phrase = [‘This’,’file’,’is’,’available’,’for’,’text’,
2016-08-19 22:20:54
2199
原创 第1章 语言处理与Python
1、尝试使用Python解释器作为一个计算器,输入表达式,如12/(4+1)。>>> 12/(4+1)22、26个字母可以组成26的10次方或者26**10个10字母长的字符串。也就是141167095653376L(结尾处的L只表示这是Python长数字格式)。100个字母长的度的字符串可能有多少个?>>> 26**100314293064158293883017435778850162642
2016-06-20 17:11:13
7844
原创 基于统计的“的”、“地”、“得”填空
1、创建向量>>> a = numpy.arange(5)>>> aarray([0, 1, 2, 3, 4])>>> type(a)<type 'numpy.ndarray'>评注:ndarray是一个多维数组对象,该对象由两部分组成: 第一部分是实际数据,第二部分是描述这些数据的元数据。 大部分的数组操作仅仅修改元数据部分,而不改变底层的实际数据。 2、创建多维向量>>> a =
2016-03-29 20:20:26
642
原创 正则表达式练习——将文本中的日期格式化为标准格式
//匹配文本中的日期,并将日期转换为标准格式void dateFormatEx(void){ ifstream in(".\\chapter.23.4.1.in", ios::binary); if (!in)cerr << "no file\n"; boost::regex pat("([\\d]+) ([\\w]+) ([\\d]+)"); cout << "p
2015-06-20 20:20:25
804
原创 正则表达式练习——将文本中的日期格式化为标准格式
//匹配文本中的日期,并将日期转换为标准格式void dateFormatEx(void){ ifstream in(".\\chapter.23.4.1.in", ios::binary); if (!in)cerr << "no file\n"; boost::regex pat("([\\d]+) ([\\w]+) ([\\d]+)"); cout << "p
2015-06-20 20:16:17
880
原创 mysql 数据库 基本命令 windows版
1、mysql服务器启动与停止 net start mysql net stop mysql2、登陆mysql服务器 mysql -h localhost -u root -p 回车 输入密码3、显示所有数据库 show databases;4、使用某一数据库 use database name;5、创建数据库 create
2015-05-23 09:14:08
491
C++入门经典JesseLiberty1-20章例题代码自编
2016-03-29
数据挖掘导论 Pang-Ning Tan 第四章 ppt 自己改编版
2013-03-10
自编基尔霍夫定律和电位的研究的multisim应用
2012-01-22
Proteus仿真ARM LPC2131 流水灯实验
2010-05-05
C语言学习数据类型、运算符与表达
2009-12-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人