- 博客(17)
- 收藏
- 关注
原创 POS tagging(词性标注) 上
词性标注是将给定文本中每个单词与其正确的词性联系起来的任务,本质是一个序列标记问题,也就是说,它为一个序列的每一个部分提供一个label。其他的例子还有tokenization,semantic Role Labeling(SLR),Word Sense Disambiguation。
2023-07-25 01:01:22
303
原创 NLP 学习笔记 3: Data preparation, tokenization, and filtering.
tokenization是对一串输入字符进行划分和分类的任务,其输出的token将会被用于其他处理。
2023-07-21 23:59:44
159
原创 NLP 学习笔记 1:pytorch基础操作以及Perceptron 和 FF networks实现
基础pytorch操作以及nlp 语言分类的一些简单模型(perception,FF network)的实现
2023-07-20 23:36:49
159
原创 大数据计算(Big Data Computing) (二) MapReduce(上)
1 MapReduce:MapReduce是一种:在cluster上为了处理大数据集,使用并行,分布式算法的编程模型(什么是cluster请看上篇文章)。它解决了集群架构的三个问题,他的解决方法是:在多个节点上冗余的存储数据以保证数据和计算的可行性 将计算移到接近数据,减小网络传输量 提供简单的计算模型来隐藏分布式环境2 分布式文件存储(Distributed File System)DFS是一种冗余存储的基础设施,提供了全局文件命名空间,并且能在一个cluster的节点间使用。一些著名的
2022-03-26 20:15:57
1697
原创 基于动量的逻辑回归实现
1 梯度下降梯度下降是一种一阶迭代迭代最小化算法,总体思想是:向损失函数下降最快的地方移动从某点 开始 迭代计算: (是损失函数 ) 当最小值达到时结束我们可以表示为α在机器学习中被称为学习率,但是梯度下降每一步的长度并非仅仅与α有关,而是与有关。当太小时会导致收敛速度非常慢,太大时会有overshooting的风险,最佳的值可以通过line search找到 。2 衰减与动量(momentum)学习率的变化可以是适应性的,也可以是遵循一定计划的。我们可以通过定义一个衰...
2022-03-08 22:03:52
1060
原创 大数据计算(Big Data Computing) (一)简介
本系列是大数据计算课程总结,目的是介绍适用于跨计算机集群的大规模数据分析的编程模型和工具,并在标准框架(hadoop,sapark)的基础下开发大数据/机器学习解决方案
2022-03-04 19:33:44
6635
原创 Distributed System 基础(五)协议(Protocol)(上)
1 原子提交(Atomic commit)在我们分布式系统中存在许许多多的进程,p1,p2,p3...pn,我们希望每一个进程都能够知道他应该执行什么事务,同时,我们也希望每个进程能够保持同步,执行相同的事务,这就叫做提交(commit).如果一个事务被提交了,那么所有进程都将会知道,并且执行操作。例如:维护数据库的每个副本一致。在这个过程中,我们有一个最大的问题,叫做错误(fault),我们可能会有许许多多的错误。错误分两种:Crash failures:系统停止工作 Byzantine fai
2022-02-12 04:17:28
257
原创 Distributed System 基础(四)隐私性(Privacy)
当我们谈到网络的隐蔽性时,我们首先会想到一个例子的是隐身浏览(或者称为私人浏览)。这是浏览器提供的确保本地用户隐私的方式,比如:不记录搜索历史等。我们分布式系统所分析的隐私性是指全局隐私,指对网络提供商,government等的匿名性。1 TOR 匿名系统TOR全名:The Onion Routing。其基本思路是:如果我们在全世界范围内有着大量的某舟服务器(称为TOR路由器,大约有8000个),如果有人想要连入网络,浏览网页,那么他首先需要连入一个叫做Guard的路由器,之后再连入一个类似的路由器
2022-01-30 18:16:30
860
原创 Distributed System 基础(三)端到端系统(Peer-to-peer Systems)
列举几个例子:E-mule,BitTorrent,Napster...他们都没有central authority,并且是在全球范围使用。这些系统极具动态性,人们能随时链接或者断开链接。他们的效率并没有那么高,所以现在已经过时。1 分布式文件存储-BitTorrent的总体思想如果你想把文件从服务器发送给数百万用户,那么让他们链接到同一台服务器是有很大问题的。可能会产生单点错误(single point of failure)或者巨大的瓶颈问题(bottleneck problem)。对此,可以使用
2022-01-28 20:28:58
4453
原创 排队论(Queuing Theory)概率背景
//这部分主要是总结一些概率论的基本知识,有一定了解的读者可以自行跳过样本空间(Sample Space):我们进行一项实验,并且有一个可能的结果的集合。这个就被称为:样本空间。样本空间可以使离散的,也可以是连续的。事件(Event):样本空间的子集Theorem:条件概率(Conditional Probability):where P{F}>0事件E与F相互独立: 注意到如果E与F相互独立,则,即E不会受到F的影响事件E与F互斥(Mutually e...
2021-08-01 01:14:33
586
原创 排队论(Queuing theory)简介
本系列博客主要讲述了排队论在计算机系统中的应用(即Computer Network Performance),是我研究生课程的学习笔记,如果看的人多可能会继续更下去。
2021-07-26 09:08:09
3088
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人