- 博客(847)
- 资源 (41)
- 收藏
- 关注
转载 大规模Elasticsearch集群管理心得
【携程旅行网 吴晓刚】 ElasticSearch目前在互联网公司主要用于两种应用场景,其一是用于构建业务的搜索功能模块且多是垂直领域的搜索,数据量级一般在千万至数十亿这个级别;其二用于大规模数据的实时OLAP,经典的如ELKStack,数据规模可能达到千亿或更多。 这两种场景的数据索引和应用访问模式上差异较大,在硬件选型和集群优化方面侧重点也会有所不同。一般来说后一种场景属于大数据范畴,数据量...
2018-10-09 11:10:47
1488
转载 CentOS安装TensorFlow:ImportError: /lib64/libc.so.6: version `GLIBC_2.17' not found
在CentOS6上安装TensorFlow1.2后,import tensorflow时出现以下问题:1ImportError: /lib64/libc.so.6: version `GLIBC_2.17' not found这个错误的原因是未安装2.17版本的glibc库。而在CentOS上,使用yum install glibc命令,只能更新到2.12版本。需要手动下载编译安装。glibc-2...
2018-05-11 18:35:11
17752
转载 CentOS安装TensorFlow:ImportError: /usr/lib64/libstdc++.so.6: version CXXABI_1.3.7’ not found
今天在CentOS上升级TensorFlow1.4版本后出现了一个问题Python程序中import tensorflow as tf会出现下面的错误:123ImportError: /usr/lib64/libstdc++.so.6: version `CXXABI_1.3.7' not found (required by /root/anaconda3/lib/python3.6/site-...
2018-05-11 18:34:23
7143
1
转载 基于深度学习的大规模多标签文本分类任务总结
自然语言处理方向的论文仿真到现在,有以下想法: 1. 很多模型都为启发式算法,从直观上很好理解,但是对于大多数人来说,就是一个黑盒,70%时间都在处理数据和调参。 2. 在数据竞赛中,常用的模型就是CNN和RNN,先调出baseline,然后再进行模型融合(model ensemble)。在以上步骤的约束下,数据竞赛比的就是设备的计算能力和个人的调参能力。 3. 在自然语言处理与NLP实战的一系列...
2018-05-04 15:06:44
6229
2
转载 用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践
近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述:淘宝商品的一个典型的例子见下图,图中商品的标题是“夏装雪纺条纹短袖t恤女春半袖衣服夏天中长款大码胖mm显瘦上衣夏”。淘宝网后台是通过树形的多层的类目体系管理商品的,覆盖叶子类目数量达上万个,商...
2018-05-04 15:01:00
958
转载 阿里云CentOS pdf2htmlEX的安装
由于项目cnexpat中需要用到pdf2htmlex,先在虚拟机上捣鼓了好久,最后才在服务器上安装成功。因为是linux 初学,所有整个安装过程很苦逼了 1. 升级gcc,要求GCC >= 4.6.3 Wget http://people.centos.org/tru/devtools-2/devtools-2.repo-O /etc/yum.repos.d/devtools
2017-01-16 18:11:47
3026
1
转载 linux上php读取和创建word文档
总结下本人在日常工作中使用php操作word的一些实战。 方法一:利用php com模块。也即利用word提供的本地api,所有只适用于windows系统上。[php] view plain copy$word = new com('word.application') or die('无法打开word'); $word->Visiable = false; $doc_file = '/pat
2016-12-19 16:47:32
5502
原创 PHP读取doc,docx,xls,pdf,txt内容
我的一个客户有这样的需求:上传文件,可以是doc,docx,xls,pdf,txt格式,现需要用php读取这些文件的内容,然后计算文件里面字数.1.PHP读取DOC格式的文件 PHP没有自带读取word文件的类,或者是库,这里我们使用antiword(http://www.winfield.demon.nl/)这个包来读取doc文件. 首先介绍一下如何在windows下使用:
2016-12-19 16:43:38
23753
转载 pdf2htmlEX实现pdf转html
首先要感谢pdf2htmlEX的作者Lu Wang,该软件是一个pdf转html的开源软件,效果非常理想。下面两张图片是html和pdf视图下的截图:windows下载地址pdf2htmlEX-v1.0-win32-static本人开发的一个功能:文档在线阅读,要求能够支持移动终端浏览器在线阅读。考虑过将文档先转pdf,然后在将pdf转swf,利用flexpaper在前端浏览器访问。但是由于saf
2016-11-28 19:18:11
9979
2
转载 [开源推荐]Facebook开源的JavaScript库:React 【轻量级app开发】
React是Facebook开源的JavaScript库,用于构建UI。你可以在React里传递多种类型的参数,如声明代码,帮助你渲染出UI、也可以是静态的HTML DOM元素、也可以传递动态变量、甚至是可交互的应用组件。(文字来自JS开发者微博)特点:声明式设计:React采用声明范式,你可以轻松描述你的应用高效:Reeact通过对DOM的模拟表现,最大限度地较少与DOM的交互。灵活:React
2016-09-12 15:56:12
1989
原创 数据管理平台DMP细致研究——BlueKai
产品简介BlueKai提供的服务是各种互联网的流量数据, 它提供以下四项数据服务:1.数据管理平台(DMP):用来帮助用户组织并分析数据,功能包括:(1)收集整合线上线下的数据(用户的自有数据)(2)对数据进行划分(可以针对不同的营销活动,如展示、搜索、视频、社交广告等)(3)将数据用于投放(可投放到不同的广告网络和交换平台)(4)衡量投放效果(可视化),不断进行优化2.数据交换中心:通过使用第三
2016-09-06 13:36:52
9523
原创 百度开源深度学习平台Paddle
百度开源深度学习平台Paddle 吃瓜群众表示只想知道好不好。百度今天开源了其深度学习平台Paddle,引发了挺多人工智能领域开发者的兴趣,包括一些之前一直在Tensorflow和Caffe上练手的开发者。不过鉴于深度学习的开源平台目前并不多,作为开发者也作为热心吃瓜群众的头等大事,就是想知道——这个平台怎么样?别人怎么看这个平台?以及这个平台跟Tensorflow以及Caffe有何区别? ▎这
2016-09-06 13:29:00
9688
1
转载 flume介绍及扩展开发心得
一、flume简介Flume是Cloudera提供的日志收集系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种storage。Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。上图的Flume的Architecture,在Flume中,最重要的抽象是data flow(数据流),data flow描述了数据从产
2016-05-20 19:18:17
8496
转载 Impala入门笔记
问题背景:初步了解Impala的应用重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍写作目的:了解Impala的安装过程初步了解Impala的使用比较Impala与Hive的性能测试适合阅读对象:想了解Impala安装的读者想了解Impala与Hive性能比较的读者不涉及的内容:如何安装Hadoop(假设你已经安装好了Hadoop)如何安装Hive(假设你已经安装好了Hive
2016-05-04 13:39:22
9527
转载 Meteor:让实时Web App成为主流
Meteor在2012年4月首次发布,该消息一经发布,便迅速占据了Haceker News头条宝座,并且成为Hacker News上最热门的文章之一。本文是作者Sacha Greif使用Meteor开发的心得体会,他认为Meteor会让实时Web App在未来成为主流。Meteor是一个新鲜出炉的现代网站开发平台,目前发布的是开发预览版0.5.8,代码以GPL协议开源。大家可以去 GitHub上关
2016-03-30 16:29:15
2312
转载 文本深度表示模型Word2Vec
简介Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路, 把词当做特征,那么Word2vec就可
2016-02-27 17:04:56
4634
转载 【机器学习】随机森林RF
随机森林(RF, RandomForest)包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。通过自助法(boot-strap)重采样技术,不断生成训练样本和测试样本,由训练样本生成多个分类树组成的随机森林,测试数据的分类结果按分类树投票多少形成的分数而定。 随机森林以随机的方式建立一个森林,森林里有很多决策树,且每棵树之间无关联,当有一个新样本进入后,让森林中
2016-02-25 20:11:20
7230
转载 【机器学习】迭代决策树GBRT(渐进梯度回归树)
一、决策树模型组合 单决策树C4.5由于功能太简单,并且非常容易出现过拟合的现象,于是引申出了许多变种决策树,就是将单决策树进行模型组合,形成多决策树,比较典型的就是迭代决策树GBRT和随机森林RF。 在最近几年的paper上,如iccv这种重量级会议,iccv 09年的里面有不少文章都是与Boosting和随机森林相关的。模型组合+决策树相关算法有两种比较基本的形式:
2016-02-25 20:09:47
8241
转载 MLlib算法简介
之前Mahout或者自己写的MR来解决复杂的机器学习,导致效率低,spark特别适合迭代式的计算,这正是机器学习算法训练所需要的,MLlib是基于spark之上算法组件,基于spark平台来实现。主要的机器学习的算法目前在MLlib中都已经提供了,分类回归、聚类、关联规则、推荐、降维、优化、特征抽取筛选、用于特征预处理的数理统计方法、以及算法的评测。以上是目前spark1.3支持的算法包,相比较之
2016-02-19 19:47:44
2750
转载 Tensorflow 官方版教程中文版
2015年11月9日,Google发布人工智能系统TensorFlow并宣布开源,同日,极客学院组织在线TensorFlow中文文档翻译。一个月后,30章文档全部翻译校对完成,上线并提供电子书下载,该文档的上线为国内外使用中文学习TensorFlow的工程及研究人员提供了更快的访问速度和更好的阅读体验,助力中国AI技术与世界同步。在线阅读地址为:http://wiki.jikexueyuan.co
2016-02-18 11:47:01
3786
转载 BP人工神经网络的C++实现
BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。它的学习规则是使用最速下降法(梯度法),通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网
2016-02-15 19:13:53
2859
转载 Erlang不能错过的盛宴 -----一位Erlang程序员的自白
Erlang不能错过的盛宴(快步进入Erlang的世界)作者:成立涛 (litaocheng@gmail.com)作为程序员,我们曾经闻听很多“业界动态”,“技术革新”,曾经接触很多“高手箴言”,“权威推荐”。这些正确与否,都已成过去!现在,让我们迎接Erlang盛宴!一、经历2007年11月在koders.com搜索代码时,发现*.erl格式的源文件,感叹开发语言的花样百出,此时,我觉得erla
2015-12-26 16:15:32
3660
1
原创 Blade - 腾讯开源的构建系统 c/c++编译环境
typhoon-bladeBlade is an advanced building system developed with python, majorly for C/C++Blade 是一个现代构建系统,期望的目标是强大而好用,把程序员从构建的繁琐中解放出来。Blade主要定位于linux下的大型C++项目,密切配合研发流程,比如单元测试,持续集成,覆盖率统计等。但像unix下的文本过滤程
2015-12-16 10:48:32
26671
原创 用curl获取https请求
今天一个同事反映,使用curl发起https请求的时候报错:“SSL certificate problem, verify that the CA cert is OK. Details: error:14090086:SSL routines:SSL3_GET_SERVER_CERTIFICATE:certificate verify failed”很明显,验证证书的时候出现了问题。使用cur
2015-10-26 16:42:30
4265
原创 (总结)CentOS Linux搭建SVN Server配置详解
PS:今天给开发的同事搭建一个公网的SVN Server,google一下,发现下面这篇最详细,就记录下来,重新排版一下。顺便根据自己的使用经验,补充了几个细节和总结。本文配置是基于CentOS 5.x的,但一样适用于其他Linux发行版!SVN简介和工作原理subversion(简称svn)是近几年崛起的版本管理软件,是cvs的接班人,目前绝大多数开源软件都使用svn作为代码版本管理软件。Sub
2015-08-31 13:19:02
3795
原创 Linux中搭建SVN服务器
一 下载工具[plain] view plaincopyprint?1. subversion-1.6.17.tar.gz 2. subversion-deps-1.6.17.tar.gz 二 解压两个包:1.在此之前,我已经创建了一个用户svnroot专门用来安装管理svn的,就解压在/home/root/目录下[plain] view plaincopyprint?tar -xzvf
2015-08-25 20:14:18
1327
原创 深度学习,神经网络为人工智能展示了新希望
深度学习,神经网络为人工智能展示了新希望2013年09月05日 ⁄ 计算机视觉 ⁄ 共 7655字 ⁄ 暂无评论 ⁄ 被围观 114 views+摘要:深度学习带来了机器学习的新浪潮,推动“大数据+深度模型”时代的来临,以及人工智能和人机交互大踏步前进。如果我们能在理论、建模和工程方面突破深度学习面临的一系列难题,人工智能的梦想不再遥远。2012年6月,《纽约时报》披露了Google Brain项
2015-05-07 14:20:17
20215
2
原创 深度学习(卷积神经网络)一些问题总结
深度卷积网络 涉及问题:1.每个图如何卷积: (1)一个图如何变成几个? (2)卷积核如何选择?2.节点之间如何连接?3.S2-C3如何进行分配?4.16-120全连接如何连接?5.最后output输出什么形式?①各个层解释: 我们先要明确一点:每个层有多个Feature Map,每个Feature Map通过一种卷积滤波器提取输入的一种特征,然后每个Feature Map有多个神经元。
2015-05-07 14:18:20
5686
原创 DeepLearning tutorial(6)易用的深度学习框架Keras简介
之前我一直在使用Theano,前面五篇Deeplearning相关的文章也是学习Theano的一些笔记,当时已经觉得Theano用起来略显麻烦,有时想实现一个新的结构,就要花很多时间去编程,所以想过将代码模块化,方便重复使用,但因为实在太忙没有时间去做。最近发现了一个叫做Keras的框架,跟我的想法不谋而合,用起来特别简单,适合快速开发。(其实还有很多其他的深度学习框架都是比较容易用的。)1. K
2015-05-07 13:40:06
28918
5
原创 ssd-cache 不错的kv系统总结
Table of Contents1 需求1.1 why1.2 具体需求2 index3 ssd 特性3.1 成本3.2 接口3.3 比较典型的ssd参数3.4 小结4 现有系统调研4.1 基于redis修改4.1.1 redis-vm4.1.2 redis-storage4.1.3 小结4.2 单机存储引擎4.2.1 LevelDB
2015-04-27 18:59:31
8948
原创 linux sort 设定tab分隔符
linux下的sort命令可以对文本的某些字段进行排序,而字段之间的分隔符默认是空格,如果想换成别的,则需要加参数-t。但是对于tab分隔符,还是得稍微注意一下。比如下面的命令:$sort -t '\t' -k3,3n a.txt >a.sortsort: multi-character tab `\t' (出错)这个不能按照tab分隔符进行字段排序,换成如下两种方式就可以了1,$ sort
2015-03-17 14:34:13
11972
原创 微信公众平台开发:进阶篇(在网页上添加分享到朋友圈、发送给好友、分享等按钮)
微信内嵌浏览器通过 Mac 远程调试 iPhone 上微信自己的网页,我们可以发现微信内嵌浏览器定义了一个私有 JavaScript 对象:WeixinJSBridge,通过操作这个对象的相关方法可以实现分享到微信朋友圈,和判断一个微信号的关注状态以及实现关注指定微信号等功能。分享到朋友圈function weixinShareTimeline(title,desc,link,imgUrl){
2015-03-05 17:21:14
2493
原创 微信公众平台开发:进阶篇(Web App开发入门)
WebApp与Native App有何区别呢?Native App:1、开发成本非常大。一般使用的开发语言为JAVA、C++、Objective-C。2、更新体验较差、同时也比较麻烦。每一次发布新的版本,都需要做版本打包,且需要用户手动更新(有些应用程序即使不需要用户手动更新,但是也需要有一个恶心的提示)。3、非常酷。因为native app可以调用IOS中的UI控件以UI方法,它可以实现WebA
2015-03-05 17:19:32
1997
原创 什么是互联网思维
今天和@箐一 一起吃饭,闲聊中,谈到了在校招宣讲会上某同学的提问“什么是互联网思维”,我也曾经被学生问到过,怎么回答的已经忘了,大意是用户第一,快速迭代之类的,总之对自己的share不满意。@箐一 分享了她近期的感触,觉得有理儿,且易懂,“互联网思维就是让用户参与进来”:1)传统的烧烤:餐厅烤好,用户吃 => 不好吃,骂餐厅,一定是餐厅的错2)互联网思维的烧烤:用户自己烤,烤了自己吃 => 不好吃
2015-01-21 15:51:39
1660
原创 linear-regression预测算法C++实现
linear-regression预测算法C++实现机器学习领域,几个常见的概念:回归(regression):用已知样本对未知公式参数的估计。线性回归(linear regression):回归的一种,回归函数是一次函数,例如:result=f(X,Y,Z,…)=aX+bY+cZ+…+…其中X,Y,Z是训练样本集中样本的各个维度(feature),a,b,c是模型的未知参数。逻辑回归(logis
2015-01-21 15:48:07
7965
原创 Logistic regression (逻辑回归) 概述
Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘) 那么它究竟是什么样的
2015-01-21 15:47:47
2189
原创 机器学习(Machine Learning)&深度学习(Deep Learning)资料
希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networ
2015-01-20 17:44:23
6638
转载 cJson使用方法
我使用的是cJSON:http://sourceforge.net/projects/cjson/ 先看json的数据结构 c中没有对象,所以json数据是采用链表存储的 [cpp] view plaincopyprint?typedef struct cJSON { struct cJSON *next,*prev; // 数组 对象数据中用到 struct cJSON
2014-11-20 13:42:35
3899
转载 微信公众平台PHP开发
微信公众平台PHP开发2013.05.19 10:28CATEGORY:PHPVIEWS:2346COMMENTS:29最近在做微信公众平台开发,一口气写了二十几个功能,挺有意思的~ 今天来分享一下开发经验~微信公众平台提供的接口很简单,先看看消息交互流程: 说的通俗一些,用户使用微信发送消息 -> 微信将数据发送给开发者 -> 开发者处理消息并返回数据至微信 -> 微信把返回数据发送给用户,
2014-11-19 16:09:34
2233
转载 决策树C4.5分类算法的C++实现
一、前言 当年实习公司布置了一个任务让写一个决策树,以前并未接触数据挖掘的东西,但作为一个数据挖掘最基本的知识点,还是应该有所理解的。 程序的源码可以点击这里进行下载,下面简要介绍一下决策树以及相关算法概念。 决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经
2014-11-05 19:09:24
19149
1
OpenRS— 开放式遥感数据处理与服务平台资料
2009-06-19
TinyXML解析xml文档
2008-12-29
Web+Services发布与调用(axis,xfire).doc
2008-12-27
COM+ Services.doc
2008-08-29
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人