瞭望天空-优快云博客

原创 tensorflow 之 bazel安装 & 使用

写在文章前面：当一个人从一个领域跨到另一个领域的时候会面临很大的改变，理论不同了，方法变换了，遇到这样挑战的时候，很多人都需要长时间去适应和习惯；这种领域的转换其实有三种，一种是理论的改变，一种是方法论的改变，另一种，则是理论和方法论都发生了改变。1，方法论的变化，重要的应对在于做，多做，多总结，从熟悉到习惯，从习惯到精通；2，理论的变化，重要的应对在于悟，多想，多问自己为什么，尝试内心的突破，打破自己既有的思维桎梏。3，有时候觉得方法论更重要，那是因为自己对工具的使用还不熟练，当对工具使用熟练后，

2017-04-06 19:14:01 77115 3

原创分布式版本管理神器--GIT

一：起因（0）：最先听说的版本管理系统是svn，那是大学本科期间接触的了，当时也没有多想 —— 一个带我们的学长，告诉我们如何如何操作；（1）：研究生就开始接触GIT，当时也是仅仅了解几个常用的命令，仅仅能够使用简单的日常所需要的命令；也没有深入的系统的了解，现在终于停下匆忙的脚步，思考一番，打算在这里做一个简单的小结（2）：分布式版本管理神器--GIT —— 最初由Linus Tor

2015-05-14 10:58:59 2580 3

原创大话桶排序基数排序和计数排序

一：计数排序（1）当输入的元素是 n 个 0 到 k 之间的整数时，它的运行时间是 Θ(n + k)。计数排序不是比较排序，排序的速度快于任何比较排序算法。由于用来计数的数组C的长度取决于待排序数组中数据的范围（等于待排序数组的最大值与最小值的差加上1），这使得计数排序对于数据范围很大的数组，需要大量时间和内存。例如：计数排序是用来排序0到100之间的数字的最好的算法，但是它不适合按字母顺序排

2015-03-29 15:22:48 2340

原创 DFS + 剪枝策略

一：简介（1）相信做过ACM的人，都很熟悉图和树的深度优先搜索；算法里面有蛮力法 —— 就是暴力搜索（不加任何剪枝的搜索）；（2）蛮力搜搜需要优化时，就是需要不停的剪枝，提前减少不必要的搜索路径，提前发现判断的过滤条件；（3）剪枝的核心问题就是设计剪枝判断方法，哪些搜索路径应当舍弃，哪些搜索路径不能舍弃（保留）；（4）高效的剪枝过滤条件需要从局部和全局来考虑问题，发现内在的规律。

2015-03-06 09:29:49 15023

原创大数据之道 BitMap (按位存取)

一：起因（0）大数据的预处理那一篇博客，仅仅讲解了如何处理数据，以及清洗数据的原则；并没有讲解大数据处理过程中，数据在内存中的存储问题，这正是本文要关注的重点。（1）所谓大数据，就是数据量非常的大，到了TB 甚至 PB数量级，处理大数据可以分为以下方法：（2）运用现在非常火的Hadoop 和 spark 之外（其实是一个非常好的成熟的分布式框架 ---- 用的也是分治的思想）；（3

2015-01-26 11:35:18 5548

原创大话函数指针和指针函数

一：起因（1）指针函数是指带指针的函数，即本质是一个函数。函数返回类型是某一类型的指针，即我们常见的函数类型，且返回值是指针。（2）函数指针是指向函数的指针变量，即本质是一个指针变量，是一个指向函数（可能是代码区）的首地址的指针，正如我们都知道，数组名就是指向数组第一个元素的常量指针（详见《数组拾遗》）。同理，对于一个函数而言，函数名也是指向函数第一条指令的常量指针。而编译器要做的就是在程

2015-01-07 09:19:47 2736 5

原创大数据处理之道（十分钟学会Python）

一：python 简介（1）Python的由来Python（英语发音：/ˈpaɪθən/）, 是一种面向对象、解释型计算机程序设计语言，由Guido van Rossum于1989年底发明，第一个公开发行版发行于1991年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言，它能够把用其他语言制作的各种模块（尤其是C/C++）很轻松地联结在一起。常见的一种应用情

2014-12-19 11:15:04 12688 3

原创走，是一辈子，不走，也是一辈子（程序猿之路）

一：起因（0）突然有一天有人问我：你当初为什么选择计算机专业？为什么你选择计算机行业？选择计算机行业为什么选择做程序猿？我没有回答~~~因为我不知道该怎么回答。（下图只能从侧面回答）（1）当你穿梭在五颜六色的人群中，会感觉到时光的流逝；当你翘首在十字路口时，面对的是选择；（2）从高中升入大学（填报志愿），这是一次小却影响深刻的选择；从大学到研究生（就业与否），这

2014-12-12 14:29:24 7781 16

原创 c++实现atoi()和itoa()函数（字符串和整数转化）

一：起因（1）字符串类型转化为整数型（Integer)，还是字符串类型（String)转化为Double类型，这在java里面有非常好的内部函数，很easy的事情；（2）但是在c里面没有Integer Double等包装类，由char[]数组转化为整数型就变得不那么简单了，atoi（） itoa（）在widows下面有，但是网上说linux 下好像没有 itoa() 函数，用 sprin

2014-11-20 10:45:34 29130 15

原创 STL 之 list源代码自行实现（iterator）

一：起因（1）数据结构里面两种非常重要的存储结构，线性结构中的连续存储结构（代表vector数组）和非连续存储结构（代表list链表），他们两者被广泛的应用在各个领域，是最基本最基础的两种存储结构；（2）vector 已经简单的实现了，请看STL 之 vector的实现之前还实现了STL的string类，请看 STL 之 string 的实现（3）之前的友元类只是停留在理

2014-11-17 20:24:25 5826

原创搜狗一面的感悟

一：自己的一些感悟如何准备笔试：（1）笔试是非常重要的，笔试的分数直接影响你接下来的的面试，这应该算给面试官下的第一潜在的个印象（面试官告诉我，你昨天的笔试成绩还不错，这也是我作为一个霸笔者能进入面试的关键因素吧）。虽然考的都是一些基础的东西，但是可能基础的连你自己都不知道从哪里下手。（2）尽量提前网申，不到万不得已，不要霸笔的，霸笔会受到特殊的待遇的，除非你笔试的成绩非常牛！总之

2014-11-06 13:36:22 3767 7

原创 KMP算法详解(与最长公共子序列)

一：在介绍KMP算法之前，先介绍一下BF算法（1）BF算法（传统的匹配算法，也是最简单的算法） BF算法是普通的模式匹配算法，BF算法的思想就是将目标串S的第一个字符与模式串P的第一个字符进行匹配，若相等，则继续比较S的第二个字符和P的第二个字符；若不相等，则比较S的第二个字符和P的第一个字符，依次比较下去，直到得出最后的匹配结果。（2）举例说明： S: abab

2014-10-24 12:02:57 5373 5

原创哈夫曼树之建树和编解码

/* * 实现过程：着先通过 HuffmanTree() 函数构造哈夫曼树，然后在主函数 main()中 * 自底向上开始(也就是从数组序号为零的结点开始)向上层层判断，若在 * 父结点左侧，则置码为 0,若在右侧,则置码为 1。最后输出生成的编码。 *--------------------------------------------------

2014-09-25 19:50:17 3829 4

原创百度2015校园招聘笔试题

百度2015校园招聘笔试题(自己ping)一、简答题（30分）1. 进程和线程的联系与区别。2. 简述数据库的存储过程及其优点。3. static全局变量与普通的全局变量有什么区别？static局部变量和普通的区别？static函数和普通函数的区别？二、算法与程序设计题（45分）1 请编码实现memcpy函数：void *memcpy（v

2014-09-20 15:43:15 2399 2

原创 python mysql插入数据报错：TypeError: %d format: a number is required, not str

1：起因最近工作需求 ---- 实时统计一份数据，insert到mysql数据库中；方法：很自然的就想到了python插入数据库，yum install MySQL-python.x86_64 à import MySQLdb(python2.X仅仅适用) 报错如下 " File"/usr/lib/pymodules/python2.6/MySQLdb/cursors.py", line 151, inexecute query = query % db.literal(args) T

2017-07-13 19:35:32 26914 1

转载机器学习中的特征——特征选择的方法以及注意点

在机器学习=模型+策略+算法的框架下，特征选择就是模型选择的一部分，是分不开的。这样文章最后提到的特征选择和交叉验证就好理解了，是先进行分组还是先进行特征选择。

2017-07-05 19:30:44 1617

原创 pearson 相关系数 & 机器学习模型中不平衡样本问题

本文讨论一下几点： 1， pearson 相关系数（Pearson Correlation Coeffient） --- 皮尔逊相关系数； 2，信息增益（InfoGain）、卡方检验与特征选择；3，机器学习模型中不平衡样本问题

2017-07-05 17:47:51 6921

原创 python post请求实例 & json -- str互相转化（application/x-www-form-urlencoded \ multipart/form-data）

第一部分：HTTP 协议规定POST 提交的数据必须放在消息主体（entity-body）中，但协议并没有规定数据必须使用什么编码方式。常见的四种编码方式如下：1）application/x-www-form-urlencoded 2）multipart/form-data 3）application/json 4）text/xml 第一部分：HTTP 协议规定POST 提交的数据必须放在消息主体（entity-body）中，但协议并没有规定数据必须使用什么编码方式。常见的四种编码方式如下：1

2017-06-07 18:15:55 12537

原创 python httplib urllib urllib2区别（一撇）

python提供很多种非常友好的访问网页内容的方法，python2.x : 如 python的httplib、urllib和urllib2 ; python3.x 又提供了request的方法。同时，每种方法下面又分为：get post put delete 等method..一时间江湖上充斥着“五门八派”的各种，令初学者眼花缭乱，不知如何下手，如何学起。但是，有一点需要提醒的是：无论哪一种方案或方法，存在既有其合理性，用着哪一种方法上手；得心应手才是王道！！！

2017-06-07 12:14:26 2334

转载深度学习在推荐领域的应用 Lookalike Facebook node2vec 深度学习推荐领域

深度学习在推荐领域的应用Lookalike Facebook node2vec 深度学习推荐领域

2017-06-01 16:03:47 4869

原创 Hadoop进阶（hadoop streaming c++实现 & MapReduce参数调优）

hadoop streaming c++实现心得与 MapReduce参数调用目录：1，机器学习 & MRHadoop进阶（hadoop streaming c++实现 & MapReduce参数调优）hadoop streaming （shell执行 & combiner & 数据分割）hadoop streaming python 处理 lzo 文件遇到的问题spark安装与调试推荐算法之Jaccard相似度与Consine相似度LibLinear使用总结深度学习在推荐领域的应用

2017-05-27 11:12:19 2333

原创 hadoop streaming （shell执行 & combiner & 数据分割）

先上干货：hadoop.streaming 的一个完整的shell脚本；（shell执行脚本实例 & combiner初探 & 数据分割） 21 ### 2--- tasks 22 HADOOP=/usr/bin/hadoop 23 24 local_file="./wc.data" 25 #input="yapeng/WC/input/*.txt" 26 input="yapeng/WC/input2" 27 output="yapeng/

2017-05-23 16:25:03 5726

原创 LibLinear使用总结（L1,L2正则）

一般情况下，L1即为1范数，为绝对值之和；L2即为2范数，就是通常意义上的模。L1会趋向于产生少量的特征，而其他的特征都是0，即实现所谓的稀疏，而L2会选择更多的特征，这些特征都会接近于0。对于solver的选择，作者的建议是：一般情况下推荐使用线性svm，其训练速度快且效果与lr接近；一般情况下推荐使用L2正则化项，L1精度相对低且训练速度也会慢一些，除非想得到一个稀疏的模型（个人注：当特征数量非常大，稀疏模型对于减少在线预测计算量比较有帮助）

2017-05-22 15:11:46 13099 1

原创 urlencode & quote & unquote (url 中带中文参数)

当url地址含有中文或者“/”的时候，这是就需要用做urlencode一下编码转换。一、urlencodeurlencode的参数是词典，它可以将key-value这样的键值对转换成我们想要的格式。如果你用的是python2.*，urlencode在urllib.urlencode。如果使用的是python3，urlencode在urllib.parse.urlencode例如

2017-05-22 15:07:02 10314

原创 linux crontab -e报错 || 不执行 || expected unqualified-id before

1，linux 新安装的centOS 或小红包系统，第一次执行crontab -e命令报错 Error detected while processing /root/.vim/bundles.vim:2，Linux下定时任务（秒级别）的实现 --- crontab仅仅可以分钟级别，自定义脚本while true + sleep3,C++ * a和*&a作为函数的参数时有什么区别?

2017-05-22 15:00:59 4327

原创 Tersorflow深度学习入门—— CIFAR-10 训练示例报错及解决方案

Tersorflow深度学习入门—— CIFAR-10 训练示例报错及解决方案, CNN图像分类与识别

2017-04-28 10:01:41 12313 1

原创 redis 值 hiredis (c/c++)

0 前言： python 版的redis 直接pyredis接口（pip install 即可）；redis server的安装（参照http://www.cnblogs.com/lpshou/p/3167396.html 不错的）；本次是c 引入hiredis第三方模块 ~ GitHub最新的https://github.com/redis/hiredis/tree/v0.13.3 直接解

2017-04-11 16:11:00 1303

原创 hadoop streaming python 处理 lzo 文件遇到的问题

1, 代码中需要注意的有：[python] view plain copy print?#!/usr/bin/env python #coding:utf8 line = line.decode("utf8") try: except Exception,ex: pass

2017-04-06 20:28:02 1438

原创 linux export 环境变量设置

在Linux里设置环境变量的方法（export PATH）在Linux里设置环境变量的方法（export PATH）一般来说，配置交叉编译工具链的时候需要指定编译工具的路径，此时就需要设置环境变量。例如我的mips-linux-gcc编译器在“/opt/au1200_rm/build_tools/bin”目录下，build_tools就是我的编译工具，则有如下三种方法来

2017-04-06 18:44:00 1334

原创 Python的库sklearn安装 & bazel安装 & cmake

Python的库sklearn安装也可以用pip安装（如：pip installscikit-learn），但安装的位置不同，安装是包名不同（apt-get安装的python包一般前缀是python），python用的时候优先选择apt-get安装的包。如果用pip freeze 安装的包的版本和在python环境（进入python导包，查看版本）看到的版本不同，可能就是用apt-get和pip都安装了，然后选择性的保留就行了（建议保留pip的）

2017-03-29 17:28:18 5773

原创 TF（tensorflow）安装之python

第一步：习惯性的google Git源码，readME发现源码安装太复杂；再百度安装tensorflow安装非常全面的安装方法（中文）：https://www.tensorflow.org/versions/r0.11/get_started/os_setup#pip-installation 或 https://github.com/jikexueyuanwiki/tensorflow-zh

2017-03-23 12:22:54 2965

原创 configure --prefix=/ & yum install 路径

linux, configure --prefix=/有什么用指定安装路径不指定prefix，则可执行文件默认放在/usr /local/bin，库文件默认放在/usr/local/lib，配置文件默认放在/usr/local/etc。其它的资源文件放在/usr /local/share。你要卸载这个程序，要么在原来的make目录下用一次make uninstall（前提是make文件

2017-03-23 10:49:50 2664

原创 GBDT 之 Boosting方法

Boosting方法概述Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将他们组合成一个预测函数。他是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。他可以用来提高其他弱分类算法的识别率,也就是将其他的弱分类算法作为基分类算法放于Boosting框架中,通过Boosting

2017-03-23 10:33:40 1562

原创 GBDT安装（xgboost LightGBM）

GBDT安装之xgboost LightGBM； sklearn python； Adaboost思想

2017-03-23 10:27:34 5037

原创 Linux RPM VS yum

0 前言: RPM是RedhatPackageManager的缩写，是由RedHat公司开发的软件包安装和管理程序; Yum（全称为 Yellow dog Updater, Modified）是一个在Fedora和RedHat以及SUSE中的Shell前端软件包管理器。一、RPM是RedhatPackageManager的缩写，是由RedHat公司开发的软件包安装和管理程序，同Windows平

2016-06-08 11:55:04 558

原创网络服务器搭建的那些事（PV QPS Throughput）

一、前言：从事后台sever开发的同学，代码开发完成之后，上线之前，总会进行各种黑盒白盒测试，压测、正确性测试...而测试同学，会给开发同学一份测试报告，需要开发同学进行确认...问题来了，里面好多专业术语，云里雾里的让人不得其解、不知所云二、实例说明（1）PV 推到出 QPS你想建设一个能承受500万PV/每天的网站吗？ 500万PV是什么概念？服务器每秒要处理多少个请求才能

2016-06-07 15:22:57 2633

原创 Linux 静态链接库和动态连接库

下面给出实例代码演示Linux下面静态链接库和动态链接库的区别：静态链接库与动态链接库都是共享代码的方式，如果采用静态链接库，则无论你愿不愿意，lib 中的指令都全部被直接包含在最终生成的 EXE 文件中了。但是若使用 DLL，那么执行时，该函数将在当前程序的执行空间里留下多份拷贝，而且是一处调用就产生一份拷贝。

2016-02-15 13:49:23 3651

原创 spark安装与调试

I----1---jdk and scala install****zyp@ubuntu:~/Desktop/software$ tar xvf jdk-7u67-linux-i586.tar.gz****vim ~/.bashrc (vim /etc/profile false)# # JAVA_HOME 2015.12.18 binary x64 or i386(una

2016-01-08 10:56:55 2714

原创数据挖掘与 Web开发何去何从

（0）引子下面以现实生活中的一个实例引出本博客的探究点，也许类似的情况正发生在你的身边。小弟工作5年了，最近有点迷茫。上一份工作在一家比较大的门户网站做web开发和移动互联网数据挖掘(人手比较紧，同时做)。后来跳槽到BAT之一做数据挖掘。数据量倒是非常大，但是感觉没有多大意思——就是分析日志，弄报表而已。之前已经的高性能web开发经验完全用不上，感觉自己还是喜欢做开发，能和业务

2015-12-26 21:36:13 4723

原创 Python进阶With语法

一：起因（0）Python的基本语法，对于一个学过其他语言的人来说，比较容易；但是要是熟练的应用和掌握Python的进阶语法还是有一段路要走的。（1）With语句代替try……finally语句；yield语法之生成器generator，序列生成器；函数式编程（Map/Reduce/Filter等 ps:这里的Map/Reduce不是Hadoop的MR）二：With基本语法（1

2015-05-29 15:51:04 1612

IKAnalyzer2012_u6 和 jcseg-dict-all两款工具

IKAnalyzer是一款小而强大的中文分词的第三方工具包，内含jar包和源文件包和开发文档；还用 jcseg-dict-all也是一款小而强大的中文分词的第三方工具包，内含jar包和源文件包和开发文档

2014-12-24

htmlparser解析Html的jar包和源文件包（两个）

htmlparser是一款小而强大的解析Html 的第三方工具包，内含jar包和源文件包（两个）,htmlparser1.6.jar,htmlparser1.6_src.jar，非常有用的

2014-12-24

jxl解析Excel的jar包和源文件包（两个）

jxl是一款小而强大的解析Excel 的第三方工具包，内含jar包和源文件包（两个）,xl-2.6.12.jar,jxl-2.6.12_src.jar，非常有用的

2014-12-24

commons-lang.jar包下载

commons-lang.jar包下载是log4j需要的文件包，也是处理file等文件所必须的

2014-12-07

log4j.jar包下载

log4j.jar 是 log日志输出的管理jar，非常好用简便，比system.out好用多了

2014-12-07

ArcGIS_Editor_for_OSM 10.0

ArcGIS_Editor_for_OSM 10.0 这是10.0的安装包，上一个资源是10.1的安装包

2014-11-26

ArcGIS_Editor_for_OSM_2_1_Desktop_Beta3

内涵文档说明和arcmap的使用技巧；以及map.osm实例地图；以及ArcGIS_Editor_for_OSM_2_1_Desktop_Beta3安装包

2014-11-26

arcgis 之 OSM转化为shp

图文并茂，里卖弄详细的讲解了arcgis OpenStreetMap(OSM)转化为shp（5步），适合地图爱好者的

2014-11-25

arcgis更改配置说明

arcgis更改配置说明,详细的说明了在更换地图时，如何更改每一个配置文件。

2014-11-24

arcgisviewer for flex开发讲义

arcgisviewer for flex开发讲义,如何通过配置文件控制各图层的显示；各个组件的关系。

2014-11-24

数据分析技巧

数据分析技巧讲解了如何在纷杂的数据中挖掘现象，这里主要讲到了如何通过最简单的Excel方式实现数据分析。

2014-11-24

数据结构（c++英文版）

1）数据结构（c++英文版），Data structures using c++;里面对STL讲解的还是不错的，比普通的STL源码级的还好； 2）重点还是侧重在数据结构的描述，核心函数的代码实现也很不错。 3）很好的一本工具书。

2014-11-23

c++list类实现

1）代码注释很详细的，非常适合学习STL的。 2）数据结构里面两种非常重要的存储结构，线性结构中的连续存储结构（代表vector数组）和非连续存储结构（代表list链表），他们两者被广泛的应用在各个领域，是最基本最基础的两种存储结构； 3）之前的友元类只是停留在理论层面，真正实现还是头一次；友元类非常像java中的内部类

2014-11-23

c++string类的实现

1)代码注释很详细的，非常适合学习STL的 2）string类经常用到find find_first_of find_first_not_of find_last_of find_last_not_of substr replace等，以及联合使用来达到java中的split和trim 3) 有些函数返回的是MyString& 、Char& 等(引用)，MyString、Char 等（传值）这得看你返回的对象是函数的局部变量还是全局变量（或者类当前对象成员变量）；前者只能返回一个MyString、Char 等；后者强烈建议返回MyString& 、Char& 等(引用)；

2014-11-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

IKAnalyzer2012_u6 和 jcseg-dict-all两款工具

htmlparser解析Html的jar包和源文件包（两个）

jxl解析Excel的jar包和源文件包（两个）

commons-lang.jar包下载

log4j.jar包下载

ArcGIS_Editor_for_OSM 10.0

ArcGIS_Editor_for_OSM_2_1_Desktop_Beta3

arcgis 之 OSM转化为shp

arcgis更改配置说明

arcgisviewer for flex开发讲义

数据分析技巧

数据结构（c++英文版）

c++list类实现

c++string类的实现

数据挖掘导论完整版

rest jersey 所必须的jar包

C++程序设计（谭浩强）

901 考研天大历年真题

JSP网上购物系统的设计与实现（购物网站）

jsp网络聊天系统——群聊系统

jsp在线答疑系统的设计与实现

日历控件DatePicker

空空如也