-
1. 语言-->数据-->信息,罗塞塔石碑,进制,圣经抄写验证码
- 2.计算机处理语言,1956年夏,AI,达特茅斯会议,语言分析,基础层,认知层,应用层,文法规则-->统计,通信系统+隐马模型
- 3.统计语言模型,词排序,马尔可夫(俄),二元模型,多元模型,语料库,概率估计,阈值,相对频度,未发生概率,平滑方法
- 4.分词,查字典方法,最长,歧义,维特比算法,下句概率,分词一致性,词的颗粒度和层次,越界型错误,覆盖型错误,颗粒度问题
- 5.隐含马尔可夫模型,雅各布森,通信六要素(发送者,接收者,信息,信道,上下文,编码),观测信号-->发送信息,鲍姆韦尔奇,马尔可夫链,
,语言识别--声学模型,机器翻译--翻译模型,拼写校正--纠正模型,给定模型-->序列概率,模型+序列-->状态序列,观测数据-->参数6.
- 6.信息熵,变量的不确定性越大,熵也越大。知道的信息越多,随机事件的不确定性越少,条件熵,联合概率分布,三元模型好于二元模型。信息的作用在于消除不确定性,自然语言处理的大量问题,就是寻找相关的信息。互信息,相对熵
{
2个相同的函数,相对熵=0
相对熵越大,差异越大,反之越小
对于概率分布或者概率密度函数,如取值均>0,相对熵可以度量两个随机分布差异性
}
- 7.贾里尼克,十年,CLSP(Center for Language and Speech Processing)(约翰·霍普金斯大学)
- 8.布尔代数(and,or,not)-->索引(关键字)-->搜索
- 9.图论,哥尼斯堡的七座桥,广度优先搜索BFS,深度优先搜索DFS,网络爬虫(马休·格雷,1993),图能遍历完回到原点,每个顶点的度为偶数,爬虫工程以BFS为主,DFS为辅,避免多次握手,降低效率。URL表-->分工+批处理
- 10.pagerank,拉里·佩奇,谢尔盖·布林,二维矩阵初始化,系数矩阵计算,网页Y的排名取决于指向于指向Y的其他网页的权重之和
- 11.搜索引擎质量,(1)完备的索引,(2)网页质量度量,(3)用户偏好,(4)查询相关性
TF: Term Frequency 词频,词在网页中的频率
IDF: Inverse Document Frequency 逆文本频率指数,为log(D/D(w)),D为全部网页数,D(w)为w出现的网页数
停止词权重为0,IDF由斯巴克·琼斯提出,TF-IDF计算网页相关性
- 12.有限状态机是一个特殊的有向图,基于概率的有限状态机和离散的马尔可夫链基本等效,动态规划算法, 有限状态机是一个五元组(
),
为输入符号的集合,S为非空的有限状态集合,
为特殊状态,起始状态,
为从空间S*
到S的映射函数,
:S*
->S,f为终止状态。
- 13.AK-47 卡拉什尼科夫(苏联) Google AK-47 阿米特·辛格,“在工程上简单实用的方法最好”,“先帮助用户解决80%的问题,再慢慢解决剩下的20%问题”
- 14.由词TF-IDF组成的向量,向量距离的度量,计算两个向量的夹角,余弦定理,
,余弦越小越相近, 优化(1)分母部分无需重复计算,(2)只考虑非零元素,(3)去掉虚词,(4)位置加权(首末)
- 15.文本分类矩阵,一次把所有文本相关性计算出来,利用矩阵运算中的奇异值分解 A = 【a11....a1j....ain/ai1...aij...ain/am1...amj...amn】aij代表字典中第j个词在第i篇文章中出现的加权词频(比如TF-IDF值)。A分为三个矩阵X,B,Y,X的行表示有多少词,列表示多少语义类,值代表词与某个语义类相关度,Y是文本的分类结果,每一类对应一篇文本,每一行对应一个主题,值代表文本与主题的相关度,B矩阵表示词的类和文章的类之间的相关性,行为词的语义类列为主题。
张智威,奇异值分解的并行算法,先进行奇异值分解,再利用计算向量余弦的方法,速度快,结果好
- 16.信息指纹,存储网址,伪随机数生成器算法生成信息指纹,梅森旋转算法,集合相同的判定,视频反盗版,关键帧对比,相似哈希,比较网页相似性,相差越小,网页相似度越高。
- 17.密码学,RSA原理:(1)找两个很大的素数P和Q,越大越好,计算P*Q,(2)N=P*Q,(3)M=(P-1)*(Q-1),(4)找一个整数D,使得E*D除以M余1,即E*DmodM=1,E为公钥,D为私钥,用于解密 用X^EmodN = Y,用Y^DmodN = X ,公开密钥的好处:简单,可靠,灵活。
- 18.搜索引擎反作弊,关键是消除噪音(1)网页排名作弊(2)不准确信息 方法:(1)从信息源出发,加强通信自身的抗干扰能力(2)从传输来看,过滤掉噪音,还原信息
- 19.(1)一个正确的数学模型应当在形式上是简单的 (2)一个正确的模型一开始还不如一个精雕细琢过的错误模型来的准确(3)大量准确的数据对研发很重要(4)正确的模型也可能受噪音干扰,而显得不准确,要找到噪音的根源
- 20.最大熵原理:保留全部的不确定性,将风险降到最小 最大熵模型训练:(1)GIS算法,达诺奇,特克利夫,是期望值最大化算法 (2)达拉皮垂孪生兄弟,IIS算法
- 21.香农第一定理:对于一个信息,任何编码的长度都不应该小于它的信息熵
- 22.自然语言处理大师马库斯,放养,标准语料库 柯林斯:追求完美,博士论文,文法分析器 布莱尔:简单才美,基于变换规则的机器学习方法
- 23.布隆过滤器,伯顿·布隆,二进制向量,随机映射函数,错误率,白名单,速度快
- 24.贝叶斯网络,每一个状态只跟与其直接相连的状态相关,而跟与它间接相连的状态没有直接关系,马尔可夫链是特殊的贝叶斯网络,用基于统计的模型分析文本,从中抽取概念,分析主题-->主题模型
- 25.文法分析,布朗大学,尤金·查尼阿克,统计模型P(Alprefix),A->行动,句子前缀prefix->词+语法成分,算法和句子长度成正比,条件随机场->概率图模型,条件随机场-->用于预测的统计模型
- 26.维特比+厄文·雅各布-->高通公司,3G移动通信标准。维特比算法-->动态规划算法,CDMA(码分多路),拉玛尔,扩频传输(抗干扰,难截获,带宽利用充分)
- 27.期望最大化算法(EM算法),自动收敛,聚类-->划分结果-->新聚类,循环
- 28.预测广告-->逻辑回归模型(Logistic Regression)
,xi为变量,代表影响概率预测的各种信息,Bi被称为回归参数,表示相应变量的重要性,Bo是一个特殊参数,保证稳定的概率分布
- 29.云计算,分治算法,MapReduce,以资源换时间
- 30.人工神经网络,图-->神经网络,神经元(节点)+神经(有向弧),节点分层,每一层节点可以通过有向弧指向上一层节点,但是同一层节点之间没有弧相互连接,不能越层连接
- 31.数据的重要性,足够数据,切比雪夫(俄),网页搜索的质量==》数据多,有代表性,算法好,收集点击数据。