- 博客(41)
- 收藏
- 关注
转载 卡方检验——特征选择使用方法
特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类?在这捣什么乱?)开方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(行
2013-12-30 13:26:13
4478
转载 C4.5——有关枝剪问题(悲观枝剪)
转自:http://www.cnblogs.com/zhangchaoyang/articles/2842490.htmlC4.5决策树在ID3决策树的基础之上稍作改进,请先阅读ID3决策树。C4.5克服了ID3的2个缺点:1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性2.不能处理连贯属性OutlookTemperatu
2013-12-30 12:43:36
6958
原创 C4.5——信息增益率
说明一下如何计算信息增益率。熟悉了ID3算法后,已经知道如何计算信息增益,计算公式如下所示(来自Wikipedia):或者,用另一个更加直观容易理解的公式计算:按照类标签对训练数据集D的属性集A进行划分,得到信息熵:按照属性集A中每个属性进行划分,得到一组信息熵:计算信息增益然后计算信息增益,即前者对后者做差,得到属性集合A一
2013-12-30 11:16:14
7580
转载 The EM Algorithm
转自:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html(EM算法)The EM Algorithm EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法。在之后的MT中的词对齐中也用到了。在Mitchell的书中
2013-12-26 14:25:56
782
转载 文本语言模型的参数估计-最大似然估计、MAP及贝叶斯估计
转自:http://blog.youkuaiyun.com/yangliuy/article/details/8296481以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型,然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数,我们可以有很多重要的应用,比如文本特征降维、文本主题分析等等。
2013-12-25 15:33:06
672
转载 理解矩阵(三)
转自:http://blog.youkuaiyun.com/myan/article/details/1865397#comments这两篇文章发表于去年的4月。在第二部分结束的时候,我说: “矩阵不仅可以作为线性变换的描述,而且可以作为一组基的描述。而 作为变换的矩阵,不但可以把线性空间中的一个点给变换到另一个点去,而且也能够把线性空间中的一个坐标系(基)表换到另一个坐标系(基)
2013-12-25 13:20:42
498
转载 理解矩阵(二)
转自:http://blog.youkuaiyun.com/myan/article/details/647511前不久chensh出于不可告人的目的,要充当老师,教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显,chensh觉得,要让自己在讲线性代数的时候不被那位强势的学生认为是神经病,还是比较难的事情。可怜的chensh,谁让你趟这个地雷阵?!色令
2013-12-25 13:18:23
539
转载 理解矩阵(一)
转自:http://blog.youkuaiyun.com/myan/article/details/647511前不久chensh出于不可告人的目的,要充当老师,教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显,chensh觉得,要让自己在讲线性代数的时候不被那位强势的学生认为是神经病,还是比较难的事情。可怜的chensh,谁让你趟这个地雷阵?!色令
2013-12-25 13:16:06
500
原创 推荐系统——找出内容近似的文章
http://www.52nlp.cn/category/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F本文将参照上文,使用java实现对wikipedia内容进行推荐找出内容近似的文章,使用的特征为词的tfidf算法的思想是:在一篇文章中找出那些比较有代表性的词,这些词的tfidf都比较高,形成一个词的向量空间模型下面的方法就多了,可以直接求两篇
2013-12-25 11:40:17
667
原创 推荐系统——找出内容近似的文章
http://www.52nlp.cn/category/%E6%8E%A8%E8%8D%90%E7%B3%BB%E7%BB%9F本文将参照上文,使用java实现对wikipedia内容进行推荐找出内容近似的文章,使用的特征为词的tfidf算法的思想是:在一篇文章中找出那些比较有代表性的词,这些词的tfidf都比较高,形成一个词的向量空间模型下面的方法就多了,可以直接求两篇
2013-12-19 10:16:51
135
原创 怎样写一个拼写检查器(java版)
import java.util.*;import java.io.*;public class SpellCorrect{ public static void readLines(String file, ArrayList lines) { BufferedReader reader = null; try { reader
2013-12-16 18:39:22
1627
原创 学习笔记——数学之美番外篇:平凡而又神奇的贝叶斯方法
数学之美番外篇:平凡而又神奇的贝叶斯方法 学习笔记概率论只不过是把常识用数学公式表达了出来。——拉普拉斯开篇的这句话很重要,贝叶斯方法就是要看常不常见的事物,现实世界中我们能观察到的都是比较靠谱的,简单的事物,符合我们的思想,而贝叶斯中的先验概率就是描述这一点,贝叶斯估计与最大似然估计最大的区别也就是这个先验概率P(A)The girl saw
2013-12-15 22:10:08
894
原创 FFmpeg解码流程(重采样)
/***********************************************************************************//****函数功能:音视频解码并重采样为规定采样率的WAV文件**************//****作者:dreamboy*************************************************
2013-09-02 15:37:49
2043
原创 E2LSH学习笔记
最近对E2LSH系统得学习了一遍E2LSH是p-stable LSH的一个开源程序一、原始LSH1、概述 LSH主要用来解决高维空间中点的近似最近邻搜索问题,即Approximate Nearest Neighbor。LSH将原始空间中的点嵌入到Hamming空间中,即原始空间中点的表达形式转换成Hamming空间中点的表达形式,原始空间中的距离度量转换成Hamm
2013-09-01 12:53:28
3408
1
原创 信息的度量和作用
信息的度量和作用1948年,香农在论文“通信的数学原理”中,提出了信息熵,解决了信息的多少以及信息的作用大小的度量问题。信息熵要弄清楚一件事情,需要知道不确定的信息,信息量就等于不确定性的多少。如2010年世界杯,要猜32支球队哪一队是冠军,使用二分的方法,只要猜5次就可以知道哪只球队是冠军信息量的比特数和所有可能情况的对数函数log有关以上是在所有
2013-09-01 12:48:13
1125
原创 搜索引擎 倒排序——结合UESTC OJ 1017
#include #include #include typedef struct { int quote; char title[251]; }Title; typedef struct { char keyword[21]; int numOfadd; int address[1001];
2012-06-29 15:13:47
757
原创 解救小Q
Description小Q被邪恶的大魔王困在了迷宫里,love8909决定去解救她。迷宫里面有一些陷阱,一旦走到陷阱里,就会被困身亡:(,迷宫里还有一些古老的传送阵,一旦走到传送阵上,会强制被传送到传送阵的另一头。现在请你帮助love8909算一算,他至少需要走多少步才能解救到小Q?Input第一行为一个整数T,表示测试数据组数。
2012-05-11 14:03:53
1821
原创 四则运算栈实现(支持10和10以上的数运算)
// LinkStack.cpp : Defines the entry point for the console application.///*作者:dreamboy*//*日期:2012.4.21*//*功能:四则运算*/#include "stdafx.h"#include #include #include #define DATA 1#define OPER 0
2012-04-24 09:25:15
442
转载 pthread_cancel
#include #include #include #include void* func(void *) { pthread_setcancelstate(PTHREAD_CANCEL_ENABLE, NULL);
2011-10-10 13:09:44
396
转载 pthread_kill
下午实验编写了使用pthread_kill函数检测一个线程是否还活着的程序,在linux环境下gcc编译通过,现将代码贴在下面/******************************* pthread_kill.c ***************************
2011-10-10 13:07:45
534
原创 ([\u@\h\W]\# busybox 在制作根文件系统的处理方法
不管是在移植根文件系统还是移植内核的时候我们总是希望可以添加一些独一无二属于自己的东西,比如自己的名字或者代号。 现在我们经常会用busybox生成根文件系统,可是根文件系统起来以后命令行提示符只有一个“#”号,没有像linux发行版那样是[user@hostnam
2011-09-25 19:44:40
2173
原创 signal函数
signal函数的使用signal系统函数调用提供了一种最简单的范例。然而,由于C原形声明的缘故使它看起来比实际复杂。signal函数将一个给定的函数和一个特定的信号联系。这里是FreeBSD中的定义(和一个typedef一起):引用: typedef void
2011-09-23 12:24:55
494
原创 fork,vfork,exec
本文是涉及到fork,vfork,exec和进程通信,父子进程数据共享这几个方面的讨论。第一点,Linux中,创建进程的方式,只有一种,那就是调用fork(或者vfork)。 当然,系统的交换进程,init进程除外,它们是操作系统自举时用特殊方式创建的最初的进程。
2011-09-20 16:31:02
1501
原创 TFTP Unsupported option(s) requested 问题详细分析及解决
一、问题原因分析: 1、下载与我操作系统版本(fedora 10)一致的tftp server源代码tftp-hpa-0.48.tar.bz2,编译通过后,替换系统的tftpd程序,通过在源代码中添加调试信息,发现是由于 Uboot 端 tftp 程序传过来的Timeo
2011-09-13 20:01:49
1969
转载 2440init.s中断跳转分析
在2440init.s中有中断处理函数,有一张中断向量表,定义了32个中断,8种模式,一直不得其解,不是很清楚C程序是如何调用底层的中断处理程序,如何使用这张异常中断向量表,其中涉及到中断入口地址,堆栈指针SP,程序计数器PC的操作等等,如在网上收集到一片较简单阐述其过程的文章,
2011-08-18 23:12:23
856
转载 2440init.s 中断跳转的分析
在2440init.s中有中断处理函数,有一张中断向量表,定义了32个中断,8种模式,一直不得其解,不是很清楚C程序是如何调用底层的中断处理程序,如何使用这张异常中断向量表,其中涉及到中断入口地址,堆栈指针SP,程序计数器PC的操作等等,如在网上收集到一片较简单阐述其过程的文章,
2011-08-18 23:08:04
115
转载 s3c2440的2440init.s的分析。 .
板子上电后就会从这里开始执行,主要完成基本初始化,还有判断是从nor还是nand启动,再实现把程序搬到SDRAM当中,在搬运成功后再跳到main函数里面执行。我们现在开始来看看它的具体代码吧!GET和INCLUDE的功能是相同的,功能都是引进一些编译过的文件。 GET
2011-08-18 22:15:34
418
转载 S3C2440 2440init.s分析
;=========================================; NAME: 2440INIT.S; DESC: C start up codes; Configure memory, ISR ,stacks; Initializ
2011-08-18 21:39:49
647
转载 ARM 启动过程 启动代码完成的主要功能 及工作模式切换
一、原理S3C2410 是三星公司基于ARM920T 设计的一款处理器,在开发基于S3C2410 的系统的过程中,如何让系统快速稳定地启动是一个重要问题。嵌入式系统的资源有限,程序通常都是固化在ROM 中运行。但在实际应用中,为提高系统的实时性,加快代码的执行速度,系统启动后
2011-08-18 21:22:08
471
原创 根据完全手册上写的MMU汇编代码
RO设为0xB0004000 烧入Nand启动MEM_CTL_BASE EQU 0x48000000SDRAM_BASE EQU 0x30004000SDRAM_CODE_BASE EQU 0xB0004
2011-08-04 14:56:09
556
转载 P15协处理器
协处理器寄存器传送(MRC,MCR) 该指令只在条件为真时执行。各种条件在表3-2 中定义了。指令译码如图3-27 所示。 这种指令类型是用于ARM920T 与协处理器直接信息通讯。例如协处理器到ARM920T 的寄存器传输(MRC)指令在协处理器中的浮点数的FIX,
2011-08-04 09:41:53
2809
原创 S3C2440 按键中断方式汇编代码
SRCPND EQU 0X4A000000INTMSK EQU 0X4A000008INTPND EQU 0X4A000010EINTMASK EQU 0X560000A4EINTPEND EQU 0X560000A8EXTINT1 EQU 0X5600008
2011-08-02 10:34:32
655
转载 ads中的RO和RW还有ZI (转载)嘿嘿
一般而言,一个程序包括只读的代码段和可读写的数据段。在ARM的集成开发环境中,只读的代码段和常量被称作RO段(ReadOnly);可读写的全局变量和静态变量被称作RW段(ReadWrite);RW段中要被初始化为零的变量被称为ZI段(ZeroInit)。对于嵌入式系统而言,程序映
2011-08-01 23:09:33
445
原创 汇编指令tst&bep&%B0&%F1
1、前阵子看cpu从sleep模式唤醒时,对tst bne和tst beq有些模糊。先记录:摘抄如下:TST R0, #0X8BNE SuspendUp ;BNE指令是“不相等(或不为0)跳转指令”:LDR R1,#0x00000000
2011-08-01 18:59:26
2859
原创 S3C2440 汇编格式
AREALED,CODE,READONLYENTRYCODE32IMPORT Main ; 声明C程序中的Main()函数START BL Disable_Watch_DogLDR SP,=1024*4BL Mainhalt_loop
2011-08-01 16:16:34
865
转载 交叉编译环境的建立
在学习linux-arm的时候总是困惑与:为什么网上到处都是建立交叉编译环境的文章,而匮乏gcc工具的使用的说明?或许学习gcc最好的老师是她的datasheet的缘故吧。网上总是把交叉环境的搭建讲得过于复杂,这也或许是因为这些写文章的人是高手的缘故吧。假如你是和我一样的菜鸟,那
2011-07-28 16:59:07
337
原创 mini2440上无操作系统移植ucGUI
uC/GUI Software package: uC/GUI3.90 由于不要把过多时间浪费在底层驱动上,这次我直接用mini2440开发板附带的 非操作系统示例代码的2440板上资源测试程序为基础,移植ucGUI。 UcGUI的移植主要修改三个头文件和两个C文件。
2011-07-21 14:49:44
981
转载 转载一篇写得不错的UCOS-II移植文章
今天突然有个想法,是否在其他结构比较简单的平台上移植比较容易一点,正好同学有一个凌阳的精简板,反正今天是星期天,就当是休息了。首先肯定是去熟悉SPCE061A的结构和IDE了。主要是存储器结构、指令系统和中断这几个部分。本来不是做这个的,没有必要深究,总体看看,知道在哪些地方查就
2011-07-17 16:41:02
615
原创 UCOS-II+MINI2440+触摸屏
void Touch_Init(void){ rADCDLY = 50000; rADCCON = PRESCALE_EN | PRSCVL(9); wait_down_int(); /* 进入"等待中断模式",等待触摸屏被按下 */ pISR_ADC
2011-07-17 14:43:43
1824
原创 UCOS_II的移植,ADS1.2+Mini2400
一、新建工程1.新建一个ARM Executable Image2.创建uCOS_II文件夹,创建两个子文件夹,分别为ARM、SOURCEARM存放和平台相关的文件("OS_CPU.H" "Os_cpu_a.s" "Os_cpu_c.c" )SOURCE下存入和平台无关的文件("
2011-07-17 14:19:43
1947
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人