- 博客(213)
- 资源 (23)
- 收藏
- 关注

原创 tensorflow 之 bazel安装 & 使用
写在文章前面:当一个人从一个领域跨到另一个领域的时候会面临很大的改变,理论不同了,方法变换了,遇到这样挑战的时候,很多人都需要长时间去适应和习惯;这种领域的转换其实有三种,一种是理论的改变,一种是方法论的改变,另一种,则是理论和方法论都发生了改变。1,方法论的变化,重要的应对在于做,多做,多总结,从熟悉到习惯,从习惯到精通;2,理论的变化,重要的应对在于悟,多想,多问自己为什么,尝试内心的突破,打破自己既有的思维桎梏。3,有时候觉得方法论更重要,那是因为自己对工具的使用还不熟练,当对工具使用熟练后,
2017-04-06 19:14:01
77115
3

原创 分布式版本管理神器--GIT
一:起因(0):最先听说的版本管理系统是svn,那是大学本科期间接触的了,当时也没有多想 —— 一个带我们的学长,告诉我们如何如何操作;(1):研究生就开始接触GIT,当时也是仅仅了解几个常用的命令,仅仅能够使用简单的日常所需要的命令;也没有深入的系统的了解,现在终于停下匆忙的脚步,思考一番,打算在这里做一个简单的小结(2):分布式版本管理神器--GIT —— 最初由Linus Tor
2015-05-14 10:58:59
2580
3

原创 大话桶排序 基数排序和计数排序
一:计数排序(1)当输入的元素是 n 个 0 到 k 之间的整数时,它的运行时间是 Θ(n + k)。计数排序不是比较排序,排序的速度快于任何比较排序算法。由于用来计数的数组C的长度取决于待排序数组中数据的范围(等于待排序数组的最大值与最小值的差加上1),这使得计数排序对于数据范围很大的数组,需要大量时间和内存。例如:计数排序是用来排序0到100之间的数字的最好的算法,但是它不适合按字母顺序排
2015-03-29 15:22:48
2340

原创 DFS + 剪枝策略
一:简介(1)相信做过ACM的人,都很熟悉图和树的深度优先搜索;算法里面有蛮力法 —— 就是暴力搜索(不加任何剪枝的搜索);(2)蛮力搜搜需要优化时,就是需要不停的剪枝,提前减少不必要的搜索路径,提前发现判断的过滤条件;(3)剪枝的核心问题就是设计剪枝判断方法,哪些搜索路径应当舍弃,哪些搜索路径不能舍弃(保留);(4)高效的剪枝过滤条件需要从局部和全局来考虑问题,发现内在的规律。
2015-03-06 09:29:49
15023

原创 大数据之道 BitMap (按位存取)
一:起因(0)大数据的预处理那一篇博客,仅仅讲解了如何处理数据,以及清洗数据的原则;并没有讲解大数据处理过程中,数据在内存中的存储问题,这正是本文要关注的重点。(1)所谓大数据,就是数据量非常的大,到了TB 甚至 PB数量级,处理大数据可以分为以下方法:(2)运用现在非常火的Hadoop 和 spark 之外(其实是一个非常好的成熟的分布式框架 ---- 用的也是分治的思想);(3
2015-01-26 11:35:18
5548

原创 大话 函数指针 和 指针函数
一:起因(1)指针函数是指带指针的函数,即本质是一个函数。函数返回类型是某一类型的指针,即我们常见的函数类型,且返回值是指针。(2)函数指针是指向函数的指针变量,即本质是一个指针变量,是一个指向函数(可能是代码区)的首地址的指针,正如我们都知道,数组名就是指向数组第一个元素的常量指针(详见《数组拾遗》)。同理,对于一个函数而言,函数名也是指向函数第一条指令的常量指针。而编译器要做的就是在程
2015-01-07 09:19:47
2736
5

原创 大数据处理之道(十分钟学会Python)
一:python 简介(1)Python的由来Python(英语发音:/ˈpaɪθən/), 是一种面向对象、解释型计算机程序设计语言,由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。Python语法简洁而清晰,具有丰富和强大的类库。它常被昵称为胶水语言,它能够把用其他语言制作的各种模块(尤其是C/C++)很轻松地联结在一起。常见的一种应用情
2014-12-19 11:15:04
12688
3

原创 走,是一辈子,不走,也是一辈子(程序猿之路)
一:起因(0)突然有一天有人问我:你当初为什么选择计算机专业?为什么你选择计算机行业?选择计算机行业为什么选择做程序猿?我没有回答~~~因为我不知道该怎么回答。(下图只能从侧面回答)(1)当你穿梭在五颜六色的人群中,会感觉到时光的流逝;当你翘首在十字路口时,面对的是选择;(2)从高中升入大学(填报志愿),这是一次小却影响深刻的选择;从大学到研究生(就业与否),这
2014-12-12 14:29:24
7781
16

原创 c++实现atoi()和itoa()函数(字符串和整数转化)
一:起因(1)字符串类型转化为整数型(Integer),还是字符串类型(String)转化为Double类型,这在java里面有非常好的内部函数,很easy的事情;(2)但是在c里面没有Integer Double等包装类,由char[]数组转化为整数型就变得不那么简单了,atoi() itoa()在widows下面有,但是网上说linux 下好像没有 itoa() 函数,用 sprin
2014-11-20 10:45:34
29130
15

原创 STL 之 list源代码自行实现(iterator)
一:起因(1)数据结构里面两种非常重要的存储结构,线性结构中的连续存储结构(代表vector数组)和非连续存储结构(代表list链表),他们两者被广泛的应用在各个领域,是最基本最基础的两种存储结构;(2)vector 已经简单的实现了,请看STL 之 vector的实现 之前还实现了STL的string类,请看 STL 之 string 的实现(3)之前的友元类只是停留在理
2014-11-17 20:24:25
5826

原创 搜狗一面的感悟
一:自己的一些感悟如何准备笔试:(1)笔试是非常重要的,笔试的分数直接影响你接下来的的面试,这应该算给面试官下的第一潜在的个印象(面试官告诉我,你昨天的笔试成绩还不错,这也是我作为一个霸笔者能进入面试的关键因素吧)。虽然考的都是一些基础的东西,但是可能基础的连你自己都不知道从哪里下手。(2)尽量提前网申,不到万不得已,不要霸笔的,霸笔会受到特殊的待遇的,除非你笔试的成绩非常牛!总之
2014-11-06 13:36:22
3767
7

原创 KMP算法详解(与最长公共子序列)
一:在介绍KMP算法之前,先介绍一下BF算法(1)BF算法(传统的匹配算法,也是最简单的算法) BF算法是普通的模式匹配算法,BF算法的思想就是将目标串S的第一个字符与模式串P的第一个字符进行匹配,若相等,则继续比较S的第二个字符和P的第二个字符;若不相等,则比较S的第二个字符和P的第一个字符,依次比较下去,直到得出最后的匹配结果。 (2)举例说明: S: abab
2014-10-24 12:02:57
5373
5

原创 哈夫曼树 之 建树和编解码
/* * 实现过程:着先通过 HuffmanTree() 函数构造哈夫曼树,然后在主函数 main()中 * 自底向上开始(也就是从数组序号为零的结点开始)向上层层判断,若在 * 父结点左侧,则置码为 0,若在右侧,则置码为 1。最后输出生成的编码。 *--------------------------------------------------
2014-09-25 19:50:17
3829
4

原创 百度2015校园招聘笔试题
百度2015校园招聘笔试题(自己ping)一 、简答题(30分)1. 进程和线程的联系与区别。2. 简述数据库的存储过程及其优点。3. static全局变量与普通的全局变量有什么区别?static局部变量和普通的区别?static函数和普通函数的区别?二、 算法与程序设计题(45分)1 请编码实现memcpy函数:void *memcpy(v
2014-09-20 15:43:15
2399
2
原创 python mysql插入数据报错:TypeError: %d format: a number is required, not str
1:起因 最近工作需求 ---- 实时统计一份数据,insert到mysql数据库中; 方法: 很自然的就想到了python插入数据库,yum install MySQL-python.x86_64 à import MySQLdb(python2.X仅仅适用) 报错如下 " File"/usr/lib/pymodules/python2.6/MySQLdb/cursors.py", line 151, inexecute query = query % db.literal(args) T
2017-07-13 19:35:32
26914
1
转载 机器学习中的特征——特征选择的方法以及注意点
在机器学习=模型+策略+算法的框架下,特征选择就是模型选择的一部分,是分不开的。这样文章最后提到的特征选择和交叉验证就好理解了,是先进行分组还是先进行特征选择。
2017-07-05 19:30:44
1617
原创 pearson 相关系数 & 机器学习模型中不平衡样本问题
本文讨论一下几点: 1, pearson 相关系数(Pearson Correlation Coeffient) --- 皮尔逊相关系数 ; 2,信息增益(InfoGain) 、卡方检验 与特征选择;3,机器学习模型中不平衡样本问题
2017-07-05 17:47:51
6921
原创 python post请求实例 & json -- str互相转化(application/x-www-form-urlencoded \ multipart/form-data)
第一部分:HTTP 协议规定POST 提交的数据必须放在消息主体(entity-body)中,但协议并没有规定数据必须使用什么编码方式。常见的四种编码方式如下:1)application/x-www-form-urlencoded 2)multipart/form-data 3)application/json 4)text/xml 第一部分:HTTP 协议规定POST 提交的数据必须放在消息主体(entity-body)中,但协议并没有规定数据必须使用什么编码方式。常见的四种编码方式如下:1
2017-06-07 18:15:55
12537
原创 python httplib urllib urllib2区别(一撇)
python提供很多种非常友好的访问网页内容的方法,python2.x : 如 python的httplib、urllib和urllib2 ; python3.x 又提供了request的方法。同时,每种方法下面又分为:get post put delete 等method..一时间江湖上充斥着“五门八派”的各种,令初学者眼花缭乱,不知如何下手,如何学起。但是,有一点需要提醒的是:无论哪一种方案或方法,存在既有其合理性,用着哪一种方法上手;得心应手才是王道!!!
2017-06-07 12:14:26
2334
转载 深度学习在推荐领域的应用 Lookalike Facebook node2vec 深度学习 推荐领域
深度学习在推荐领域的应用Lookalike Facebook node2vec 深度学习 推荐领域
2017-06-01 16:03:47
4869
原创 Hadoop进阶(hadoop streaming c++实现 & MapReduce参数调优)
hadoop streaming c++实现 心得 与 MapReduce参数调用目录:1,机器学习 & MRHadoop进阶(hadoop streaming c++实现 & MapReduce参数调优)hadoop streaming (shell执行 & combiner & 数据分割)hadoop streaming python 处理 lzo 文件遇到的问题spark安装与调试推荐算法之Jaccard相似度与Consine相似度LibLinear使用总结深度学习在推荐领域的应用
2017-05-27 11:12:19
2333
原创 hadoop streaming (shell执行 & combiner & 数据分割)
先上干货:hadoop.streaming 的一个完整的shell脚本;(shell执行脚本实例 & combiner初探 & 数据分割) 21 ### 2--- tasks 22 HADOOP=/usr/bin/hadoop 23 24 local_file="./wc.data" 25 #input="yapeng/WC/input/*.txt" 26 input="yapeng/WC/input2" 27 output="yapeng/
2017-05-23 16:25:03
5726
原创 LibLinear使用总结(L1,L2正则)
一般情况下,L1即为1范数,为绝对值之和;L2即为2范数,就是通常意义上的模。L1会趋向于产生少量的特征,而其他的特征都是0,即实现所谓的稀疏,而L2会选择更多的特征,这些特征都会接近于0。对于solver的选择,作者的建议是:一般情况下推荐使用线性svm,其训练速度快且效果与lr接近;一般情况下推荐使用L2正则化项,L1精度相对低且训练速度也会慢一些,除非想得到一个稀疏的模型(个人注:当特征数量非常大,稀疏模型对于减少在线预测计算量比较有帮助)
2017-05-22 15:11:46
13099
1
原创 urlencode & quote & unquote (url 中带中文参数)
当url地址含有中文或者“/”的时候,这是就需要用做urlencode一下编码转换。一、urlencodeurlencode的参数是词典,它可以将key-value这样的键值对转换成我们想要的格式。如果你用的是python2.*,urlencode在urllib.urlencode。如果使用的是python3,urlencode在urllib.parse.urlencode例如
2017-05-22 15:07:02
10314
原创 linux crontab -e报错 || 不执行 || expected unqualified-id before
1,linux 新安装的centOS 或小红包系统,第一次执行crontab -e命令报错 Error detected while processing /root/.vim/bundles.vim:2,Linux下定时任务(秒级别)的实现 --- crontab仅仅可以分钟级别,自定义脚本while true + sleep3,C++ * a和*&a作为函数的参数时有什么区别?
2017-05-22 15:00:59
4327
原创 Tersorflow深度学习入门—— CIFAR-10 训练示例报错及解决方案
Tersorflow深度学习入门—— CIFAR-10 训练示例报错及解决方案, CNN图像分类与识别
2017-04-28 10:01:41
12313
1
原创 redis 值 hiredis (c/c++)
0 前言: python 版的redis 直接pyredis接口(pip install 即可);redis server的安装(参照http://www.cnblogs.com/lpshou/p/3167396.html 不错的); 本次是c 引入hiredis第三方模块 ~ GitHub最新的https://github.com/redis/hiredis/tree/v0.13.3 直接解
2017-04-11 16:11:00
1303
原创 hadoop streaming python 处理 lzo 文件遇到的问题
1, 代码中需要注意的有:[python] view plain copy print?#!/usr/bin/env python #coding:utf8 line = line.decode("utf8") try: except Exception,ex: pass
2017-04-06 20:28:02
1438
原创 linux export 环境变量设置
在Linux里设置环境变量的方法(export PATH)在Linux里设置环境变量的方法(export PATH)一般来说,配置交叉编译工具链的时候需要指定编译工具的路径,此时就需要设置环境变量。例如我的mips-linux-gcc编译器在“/opt/au1200_rm/build_tools/bin”目录下,build_tools就是我的编译工具,则有如下三种方法来
2017-04-06 18:44:00
1334
原创 Python的库sklearn安装 & bazel安装 & cmake
Python的库sklearn安装 也可以用pip安装(如:pip installscikit-learn),但安装的位置不同,安装是包名不同(apt-get安装的python包一般前缀是python),python用的时候优先选择apt-get安装的包。如果用pip freeze 安装的包的版本和在python环境(进入python导包,查看版本)看到的版本不同,可能就是用apt-get和pip都安装了,然后选择性的保留就行了(建议保留pip的)
2017-03-29 17:28:18
5773
原创 TF(tensorflow)安装之python
第一步:习惯性的google Git源码,readME发现源码安装太复杂;再百度安装tensorflow安装非常全面的安装方法(中文):https://www.tensorflow.org/versions/r0.11/get_started/os_setup#pip-installation 或 https://github.com/jikexueyuanwiki/tensorflow-zh
2017-03-23 12:22:54
2965
原创 configure --prefix=/ & yum install 路径
linux, configure --prefix=/有什么用 指定安装路径不指定prefix,则可执行文件默认放在/usr /local/bin,库文件默认放在/usr/local/lib,配置文件默认放在/usr/local/etc。其它的资源文件放在/usr /local/share。你要卸载这个程序,要么在原来的make目录下用一次make uninstall(前提是make文件
2017-03-23 10:49:50
2664
原创 GBDT 之 Boosting方法
Boosting方法概述Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。他是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。他可以用来提高其他弱分类算法的识别率,也就是将其他的弱分类算法作为基分类算法放于Boosting框架中,通过Boosting
2017-03-23 10:33:40
1562
原创 GBDT安装(xgboost LightGBM)
GBDT安装之xgboost LightGBM; sklearn python; Adaboost思想
2017-03-23 10:27:34
5037
原创 Linux RPM VS yum
0 前言: RPM是RedhatPackageManager的缩写,是由RedHat公司开发的软件包安装和管理程序; Yum(全称为 Yellow dog Updater, Modified)是一个在Fedora和RedHat以及SUSE中的Shell前端软件包管理器。一、RPM是RedhatPackageManager的缩写,是由RedHat公司开发的软件包安装和管理程序,同Windows平
2016-06-08 11:55:04
558
原创 网络服务器搭建的那些事(PV QPS Throughput)
一、前言:从事后台sever开发的同学,代码开发完成之后,上线之前,总会进行各种黑盒白盒测试,压测、正确性测试...而测试同学,会给开发同学一份测试报告,需要开发同学进行确认...问题来了,里面好多专业术语,云里雾里的让人不得其解、不知所云二、实例说明(1)PV 推到出 QPS你想建设一个能承受500万PV/每天的网站吗? 500万PV是什么概念?服务器每秒要处理多少个请求才能
2016-06-07 15:22:57
2633
原创 Linux 静态链接库和动态连接库
下面给出实例代码演示Linux下面静态链接库和动态链接库的区别:静态链接库与动态链接库都是共享代码的方式,如果采用静态链接库,则无论你愿不愿意,lib 中的指令都全部被直接包含在最终生成的 EXE 文件中了。但是若使用 DLL,那么执行时,该函数将在当前程序的执行空间里留下多份拷贝,而且是一处调用就产生一份拷贝。
2016-02-15 13:49:23
3651
原创 spark安装与调试
I----1---jdk and scala install****zyp@ubuntu:~/Desktop/software$ tar xvf jdk-7u67-linux-i586.tar.gz****vim ~/.bashrc (vim /etc/profile false)# # JAVA_HOME 2015.12.18 binary x64 or i386(una
2016-01-08 10:56:55
2714
原创 数据挖掘 与 Web开发何去何从
(0)引子下面以现实生活中的一个实例引出本博客的探究点,也许类似的情况正发生在你的身边。小弟工作5年了,最近有点迷茫。上一份工作在一家比较大的门户网站做web开发和移动互联网数据挖掘(人手比较紧,同时做)。后来跳槽到BAT之一做数据挖掘。数据量倒是非常大,但是感觉没有多大意思——就是分析日志,弄报表而已。之前已经的高性能web开发经验完全用不上,感觉自己还是喜欢做开发,能和业务
2015-12-26 21:36:13
4723
原创 Python进阶With语法
一:起因(0)Python的基本语法,对于一个学过其他语言的人来说,比较容易;但是要是熟练的应用 和 掌握Python的进阶语法还是有一段路要走的。(1)With语句代替try……finally语句;yield语法之生成器generator,序列生成器;函数式编程(Map/Reduce/Filter等 ps:这里的Map/Reduce不是Hadoop的MR)二:With基本语法(1
2015-05-29 15:51:04
1612
IKAnalyzer2012_u6 和 jcseg-dict-all两款工具
2014-12-24
htmlparser解析Html的jar包和源文件包(两个)
2014-12-24
jxl解析Excel的jar包和源文件包(两个)
2014-12-24
ArcGIS_Editor_for_OSM_2_1_Desktop_Beta3
2014-11-26
数据结构(c++英文版)
2014-11-23
c++list类实现
2014-11-23
c++string类的实现
2014-11-23
数据挖掘导论完整版
2014-11-12
C++程序设计(谭浩强)
2014-08-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人