- 博客(59)
- 资源 (5)
- 收藏
- 关注
原创 XLNet 代码实践及原理解析(一)
本文记录对XLNet的实践过程,会在实践和代码分析的过程中,穿插着从代码层面对原理的理解。基本上是按照里面的顺序,一步步实践的,不过对里面的一些细节针对自己的实践,进行了补充和修改。希望对学习nlp朋友们有所帮助。读者阅读前需要初步了解XLNet的原理,不熟悉的读者请先阅读下面的。到了这一步你会对原理有初步的理解,深入的理解和对细节的把握还需要从代码细节入手。文章如有错误还望谅解,欢迎沟通讨论。
2023-03-19 17:27:17
474
转载 GBDT相关
Boosting算法族:boosting方法通过分步迭代(stage-wise)的方式来构建模型,在迭代的每一步构建的弱学习器都是为了弥补已有模型的不足1、AdaBoost:通过给已有模型预测错误的样本更高的权重,使得先前的学习器做错的训练样本在后续受到更多的关注的方式来弥补已有模型的不足2、梯度提升方法--以GBDT(Gradient Boosting Decison Tree)...
2020-03-23 15:19:35
313
原创 nlp相关
NLP之——Word2Vec详解一句话,word2vec就是用一个一层的神经网络(CBOW的本质)把one-hot形式的词向量映射到分布式形式的词向量,为了加快训练速度,用了Hierarchical softmax,negative sampling 等trick。Word2vec总共有两种类型--CBoW模型、Skip-gram模型,每种类型有两个优化算法--层次Softmax(Hier...
2020-03-19 20:56:31
430
原创 LR逻辑回归和sigmoid 函数
Q:1, 逻辑回归为什么要使用sigmoid函数.2, LR模型的意义,即为什么有了线性回归(linear regression)还需要逻辑回归(logistic regression)A:1、逻辑回归模型的定义:逻辑回归的输入是一个线性组合,与线性回归一样,但输出变成了概率那么需要一个函数将逻辑回归的输入(一个线性组合)与p联系起来。下面介绍这个函数,它的名字叫Logi...
2020-03-19 12:38:42
606
原创 在Windows下安装fasttext,并对中文文本进行Text classification
工作中遇到nlp相关的问题,从接手到今天有了一点眉目差不多三周时间。由于之前只是在理论上知道有nlp这一回事,这次的实践遇到很多坑,过程磕磕碰碰经历得很痛苦,在此记录下,以便有与我相似需求的同学有一点参考资料。首先我的工作环境是Windows7 64+Anaconda+Python 3.6,明确自己的工作环境很重要,因为在网上查找资料时很多解决方案都不适用于我这个环境,如果用的是li...
2019-04-10 17:28:56
2382
转载 R语言tar.gz 后缀window环境安装攻略
原文:http://blog.sina.com.cn/s/blog_46f7e25d0101h73l.html里面的有些地方和我执行的有出路我这边做了修改R语言使用时,我们经常会碰到下载一个cran上没有的包,命名规则为name.tar.gz这样的包我们如何安装使用呢。例如,我们在下面的网站http://linchen.fhcrc.org/grass.html发现一个包,
2015-09-18 16:41:24
3180
原创 Deep learning和Reinforcement lea…
转自:http://www.infoq.com/cn/articles/atari-reinforcement-learning作者 尹绪森 发布于2014年3月31日引子说到机器学习最酷的分支,非Deep learning和Reinforcementlearning莫属(以下分别简称DL和RL)。这两者不仅在实际应用中表现的很酷,在机器学习理论中也有不俗的表现。DeepMi
2015-09-18 15:48:22
852
转载 svd++
SVD++ refersto a matrixfactorization modelwhich makes use of implicitfeedback information.In general, implicit feedback can refer to any kindsof users'history information that can help indicate
2015-09-18 15:48:19
755
转载 ive lateral view…
原文地址:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView#lateral view用于和split,explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。一个简单的例子,假设我们有一张表pageAds,它有两列数据,第一列是pagei
2015-09-18 15:48:17
804
原创 hive常用函数 两层json格式解析
转自http://blackproof.iteye.com/blog/2108353字符串函数字符串长度函数:length Java代码 两层json格式解析" />语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from dual;
2015-09-18 15:48:14
6279
原创 我学习的R函数
unique去重difftime日期间隔函数 strsplit(data,split=":")提取字符串merge数据框合并as.numeric(as.character避免成为因子subset取一定条件的子集HoltWinters 时间序列的hw平滑法inherits(fit_cashpay,"try-error") 判断函数的使用是否出错cat("a error happen
2015-09-18 15:48:12
418
原创 HIVE 中 multi_distinct的注意事项
前hive的版本支持multi-distinct的特性,这个在用起来比较方便,但是在此特性下面无法开启防数据倾斜的开关(sethive.groupby.skewindata=true),防止数据倾斜的参数只在单distinct情况下会通过一个job来防止数据的倾斜。multi-distinct使用起来方便的同时也可能会带来性能的不优化,如日志中常常统计pv,Uv,独立ip数,独立session数
2015-09-18 15:48:09
615
转载 HIVE 自定义函数
转自:http://blog.youkuaiyun.com/zythy/article/details/18818559当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-definedfunction)。Hive目前只支持用java语言书写自定义函数。如果需要采用其他语言,比如Python,可以考虑上一节提到的transform语法来实现。H
2015-09-18 15:48:07
388
转载 Hive MapReduce脚本
Hive查询排序和聚集转自http://blog.youkuaiyun.com/zythy/article/details/18814781通过Hive提供的orderby子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。如果你不需要最终结果整体有序,你就
2015-09-18 15:48:04
907
原创 HIVE 加jar包
use tmp_htldb;--加载UDF函数drop resources zlp_udf.jar;drop function GPSDistance;add jar hdfs://ns//user/xxx/user/zlp/udf/zlp_udf.jar; create temporary function GPSDistance as'com.baidu.bi.udf.GPSDi
2015-09-18 15:48:02
840
转载 R中设置图形参数--函数par()…
原文地址:R中设置图形参数--函数par()详解作者:菜鸟的成长 R有着非常强大的绘图功能,我们可以利用简单的几行代码绘制出各种图形来,但是有时候默认的图形设置没法满足我们的需要,甚至会碰到各种各样的小问题:如坐标轴或者标题出界了,或者图例说明的大小或者位置遮挡住了图形,甚至有时候默认的颜色也不能满足我们的需求。如何进行调整呢?这就用到了“强大”的函数par()。我们可以通过设定函数par
2015-09-18 15:47:59
1269
原创 [转载]hive的查询注意事项以及优…
hive的查询注意事项以及优化总结.Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select
2015-09-18 15:47:56
396
转载 hive大数据倾斜总结
hive大数据倾斜总结在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的redu
2015-09-18 15:47:54
463
转载 SAS中常用选项的含义简介
原文地址:SAS中常用选项的含义简介作者:gigu003System options:obs:表示需要处理的最后一行observation,如果指定其为max,就表示处理到最后一条observationfirstobs:表示需要从第几行observation开始处理,默认是1observationmsglevel:默认值是N,仅打印notes,warnings和er
2015-09-18 15:47:52
7409
原创 12306 售票网站新版验证码识别对抗
近段时间 12306 订票网站验证码升级为用户识别图像内容,然后选取符合条件的图片为验证码,比如这样:售票网站新版验证码识别对抗" TITLE="12306 售票网站新版验证码识别对抗" />不少媒体新闻大呼抢票工具集体失效、12306终极验证码等新闻,这种验证码的推出有好同样也有坏处:机器识别困难,同样人眼识别也轻松不到哪里去。用这种方式作为验证码最大的担忧就是怕脚本或人工对其图片进
2015-09-18 15:47:49
697
1
原创 SQL Server 存储过程
Transact-SQL中的存储过程,非常类似于Java语言中的方法,它可以重复调用。当存储过程执行一次后,可以将语句缓存中,这样下次执行的时候直接使用缓存中的语句。这样就可以提高存储过程的性能。Ø 存储过程的概念 存储过程Procedure是一组为了完成特定功能的SQL语句集合,经编译后存储在数据库中,用户通过指定存储过程的名称并给出参数来执行。 存储过程中可以包含逻辑控
2015-09-18 15:47:46
343
原创 用gbm包来提升决策树能力
中国有句老话:三个臭皮匠,顶个诸葛亮。这个说法至少在变形金刚中得到了体现,没有组合之前的大力神只是五个可以被柱子哥随手秒掉工地苦力。但组合之后却是威力大增。在机器学习领域也是如此,一堆能力一般的“弱学习器”也能组合成一个“强学习器”。前篇文章提到的随机森林就是一种组合学习的方法,本文要说的是另一类组合金刚: 提升方法(Boosting)。提升方法是一大类集成分类学习的统称。它用不同的权重将基
2015-09-18 15:47:44
2350
1
原创 Hive几种数据导出方式
转自:http://www.iteblog.com/archives/955http://blog.youkuaiyun.com/xiao_jun_0820/article/details/32328755谈到了Hive中几种数据的导入方式,不同的数据导入方式用途不一样。今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)
2015-09-18 15:47:39
857
转载 随机森林 VS Grad…
原文地址:VS Gradient Boost Decision Tree">随机森林 VS Gradient Boost Decision Tree作者:跋锋寒本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同
2015-09-18 15:47:36
560
转载 hive array、map、stru…
转载自:http://www.cnblogs.com/end/archive/2013/01/17/2863884.htmlhive提供了复合数据类型:Structs: structs内部的数据可以通过DOT(.)来存取,例如,表中一列c的类型为STRUCT{a INT; bINT},我们可以通过c.a来访问域aMaps(K-V对):访问指定域可以通过["指定域名称"]进行,例如,一个M
2015-09-18 15:47:20
463
原创 R主页上的图的代码
R 主页上的图片的代码,怕以后没有了,就复制下来,以防万一 ### Code by Eric Lecoutre, Universite catholique de Louvain, Belgium### Winner of the R Homepage graphics competition 2004### Created using R 1.8.1, still works
2015-09-18 15:47:18
667
原创 Python教程:[63]操作目录/路径【2…
【转载】上一篇介绍了如何读取文件路径的各个成分,现在我们看一下操作目录路径的一些方法,主要介绍getcwd等方法,我们来看一下具体的方法:先来装载os模块获取当前脚本的工作路径:用getcwd获取某目录下的所有文件和文件夹名称:我们用到了listdir,参数是路径改变脚本的工作路径:用chdir改变脚本后,我们看一下当前脚本工作路径已经改变:
2015-09-18 15:47:15
265
原创 mapreduce算中位数
转自 http://blog.sina.com.cn/s/blog_7905e70c0101kz7d.htmlSuppose you have a master node (or are able to usea consensus protocolto elect a master from among yourservers). The master first queries t
2015-09-18 15:47:13
1097
原创 logistic 回归
Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。 1. 应用范围:① 适用于流行病学资料的危险因素分析② 实验室中药物的剂量-反应关系③ 临床试验评价④ 疾病的预后因素分析2. Logistic回归的分类:① 按因变量的资料类型分:二分类多分类其中二分较为常用② 按研究方法分:条 件Logist
2015-09-18 15:47:10
715
原创 【转载】Python 基础语法(二)…
作者:Peter出处:http://t.cn/SInKe7Python基础语法(二)--------------------------------------------接 Python基础语法(一) -------------------------------------------- 2.元组 tuple和list十分相似,但是tuple是不可变的,即
2015-09-18 15:47:08
348
原创 【转载】python基础一(加了我的注…
作者:Peter出处:http://www.cnblogs.com/Peter-Zhang/Python基础语法(一)Python的特点 1. 简单 Python是一种代表简单思想的语言。 2. 易学 Python有极其简单的语法。 3. 免费、开源 Python是FLOSS(自由/开放源码软件)之一。 4. 高层语言
2015-09-18 15:47:05
541
原创 SAS hash 树与多维临时数组的比较
代码来自SAS 官网 data bteam; infile datalines; input lname : $10. gender $ height weighttype;datalines;Adams M 67 160 2Alexander M 69 115 1Apple M 69 139 1Arthur M 66 125 2Avery M 66 152 2Bare
2015-09-18 15:47:00
492
原创 双set表整合出复杂的表(附有sas&n…
双set语句的特点:1.每个set在内存中都开辟一个指针,指向数据集,有先后顺序。2.一旦有一个指针指向了文件的结尾,则跳出循环。3.双set语句读取数据集的记录时,相当于retain语句,保留记录值,直到下一条记录覆盖它为止。 以下附上code :data kids_ids; attrib id length=$5 dob informat=mmddyy10.
2015-09-18 15:46:57
1151
原创 【转载】SAS Hash 对象
Hash对象 1.基本原理散列表(Hash table,也叫哈希表),是根据关键码值(Keyvalue)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表。在数据装载时,根据F(key)=内存地址将表存到内存中指定的地址; key value内存地址(举例) 张
2015-09-18 15:46:54
971
原创 【转载】word 查找与替换中的…
word查找与替换中的通配符 以下是直接或者间接贴过来的查找的快捷键“Ctrl+F”,替换的快捷键“Ctrl+H”.或在“编辑”菜单上,单击“查找”或“替换”.I. 常用的通配符及作用 要查找和替换的项目的通配符通配符 用途* 表示零个到多个字符.比如说是,s*d 可查找“sad”和“started”.? 表示
2015-09-18 15:46:52
1215
转载 SAS--Perl Regular Expressi…
原文地址:Regular Expressions(正则表达式)">SAS--Perl Regular Expressions(正则表达式)作者:SAS_Miner正则表达式基础正则表达式由一些普通字符和一些元字符(metacharacters)组成。普通字符包括大小写的字母和数字,而元字符则具有特殊的含义(详细内容查help)。一个正则表达式,就是用某种模式去匹配一类字符串的一个公式。很多人
2015-09-18 15:46:49
564
原创 【转载】正则表达式基础知识介绍及…
前言正则表达式是烦琐的,但是强大的,学会之后的应用会让你除了提高效率外,会给你带来绝对的成就感。只要认真去阅读这些资料,加上应用的时候进行一定的参考,掌握正则表达式不是问题。索引1._引子2._正则表达式的历史3._正则表达式定义3.1_普通字符3.2_非打印字符3.3_特殊字符3.4_限定符3.5_定位符3.6_选择3.7_后向引用4._各种操作符的运算优先级5._
2015-09-18 15:46:47
421
原创 sql合并复杂的表
这是我在人大经济论坛看到的帖子,张贴如下:本帖最后由 我想在sas中用sql实现如下问题:例如有表一:ID age sex1 25 f2 20 m表二:ID product1 a1 b2 a1 b2 a如何合并成这样一个表ID age sex
2015-09-18 15:46:44
645
原创 【转载】COMPRESS 函数【功能…
COMPRESS函数【功能】从一个字符串移除特定的字符 【类别】字符函数 【语法】 COMPRESS( 指定一个要被移除字符的源字符串。 chars 指定一栏初始字符,默认它是要从source里移除的。如果指定”K”modifier,返回的结果则保存这些字符。 modifiers 指定一个修饰符,函数的具体功能。如: a 增加(A - Z, a - z)到初始字符
2015-09-18 15:46:42
560
原创 【转载】SAS INTNX详解
2010-06-1315:30:39| 分类: 统计知识 | 标签: |举报 |字号大中小 订阅在时间序列分析中,INTNX是比较常用的函数,用于输入时间。形式如:INTNX(interval,start-from,increment) 。书上的用法一贯比较简单,网上搜索一下,该函数至少包括以下几种用法。 Example1. Some simple examples of u
2015-09-18 15:46:40
19656
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人