- 博客(33)
- 收藏
- 关注
原创 面筋~
最近班里很多同学在找实习,分享一下我经验~~大家放松心态,后来了解到我工作的内容跟以前学的东东完全不搭边~可见面试官重在看你的学习能力和基础。 面试岗位:阿里云+ 算法工程师面试内容:算法 + 项目。PS:语言基础之类就不提了~1、算法:机器学习系类(这个大家在看书的同时应该扩展下知识面,一般的算法都是有适用场景和缺陷的,应该了解下这个算法的兄弟算法、改进算法), 布隆过滤器(
2015-03-11 14:41:32
648
原创 第一章 LINUX 常用命令
Linux 常用命令1. Linux常用命令$是普通用户#是root用户用户切换到root su –退出root 用户 exit Ctrl + c 停止当前命令Un tab tab 给出以un开头的所有命令 !+ 字符 执行以这个字符开头的历史命令 !? + 字符 执行含有该字符的历史命令 通配符*匹配零个或者多个
2014-07-07 20:55:53
534
原创 决策树C4.5
机器学习算法----决策树C4.5C4.5是ID3的改进,中用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性,在C4.5中由于除以了 ,可以削弱这种作用。C4.5是如何处理连续属性的呢?实际上它先把连续属性转换为离散属性再进行处理。虽然本质上属性的取值是连续的,但对于有限的采样数据它是离散的,如果有N条样本,那么我们有N-1种离散化的方法:vj的分到右子树。计算这N
2014-04-21 12:39:12
723
转载 梅氏砝码(2014腾讯实习笔试附加题)
原题大意:用4个砝码称出重量在1到40克内的钻石,这4个砝码分别多重(钻石重量为整型)。解法:梅氏砝码。假设第i个砝码的重量为a[i]且a[i]>=a[i-1]。i-1个砝码可以表示[1,n](n1,n]U[a[i]-n,a[i]+n]。为使其连续,所以a[i]-na[1]+a[2]+a[3]+…+a[i-1])+1。因此当a[i]=2*(a[1]+a[2]+a[3]+…+a[i-1])+
2014-04-21 12:20:02
718
原创 死锁及银行家算法介绍
死锁及银行家算法介绍1、死锁的四个必要条件:a) mutual exclusionb) hold and waitc) preemptiond) circular wait2、避免:circular waita) Prioritise the accounts byusing their numeric orderb
2014-03-10 21:41:54
591
转载 TCP 与 UDP的区别 java
The difference between TCP/IP and UDPCitation:=http://xuxd32.blog.163.com/blog/static/4812193320114885118923/Java主要关注传输层, 在传输层TCP,UDP是两种传输数据流的方式。一、TCP(Transmission Control Protocol,传输控制协议)Connection-o
2014-03-10 21:33:43
1824
原创 Java 数据库编程之mysql
Java 数据库编程之mysql一、基本知识1、 JDBC 提供了与平台无关的执行sql的API2、 JDBC操作步骤a.加载数据库驱动程序,将开发包的地址加载classpath中b.建立连接c.使用语句进行数据库操作。d.关闭数据库二、mysql中建立连接和关闭连接的功能类import java.sql.Connection;import java.sq
2014-02-18 21:19:17
901
转载 聚类算法之层次聚类(Java实现)
聚类算法之层次聚类(Java实现) 资源出处: http://www.cnblogs.com/emanlee/archive/2012/02/28/2371273.html http://blog.youkuaiyun.com/jwh_bupt/article/details/7685809一、知识点:层次聚类算法是非常常用的聚类算法,同时也
2014-01-05 14:57:26
6572
1
转载 聚类算法之Kmeans (Java实现)
聚类算法之Kmeans (Java实现)资源出处:http://blog.youkuaiyun.com/qll125596718/article/details/8243404 http://www.cnblogs.com/zhangchaoyang/articles/2181869.html 一、知识点:KMeans是最著名的划分聚类算法,K-mea
2014-01-04 21:59:53
1762
转载 聚类算法之DBScan(Java实现)
聚类算法之DBScan资源出处:http://www.cnblogs.com/zhangchaoyang/articles/2182748.html一、知识点:DBScan是一种基于密度的聚类算法,有两个参数: 扫描半径 (eps)和最小包含点数(minPts)。它有一个核心点的概念:如果一个点,在距它Eps的范围内有不少于MinPts个点,则该点就是核心点。核心和它Eps范围内的邻居
2014-01-04 15:58:17
2025
1
原创 信息熵,信息量
信息量是指从N个相等可能事件中选出一个事件所需要的信息度量或含量,也就是在辩识N个事件中特定的一个事件的过程中所需要提问"是或否"的最少次数. 信息量=不确定性的多少。 信息熵即对信息量的度量,单位比特。 计算公式 H(x) = E[I(xi)] = E[ log(2,1/p(xi)) ] = -∑p(xi)log(2,p(
2014-01-04 15:31:01
725
转载 聚类算法总结
聚类算法总结:---------------------------------------------------------聚类算法的种类:基于划分聚类算法(partition clustering)k-means:是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点,该算法只能处理数值型数据
2014-01-04 15:26:56
776
原创 将关系型数据库中的数据转成RDF(一)
有两种方式,1、使用D2R工具生成虚拟RDF文件显示, 详细实现细节点击打开链接 2、使用Jena API自己构建三元组模型生成真实的RDF文件。 Jena SPI构建RDF模型 Jena API简介点击打开链
2013-10-06 16:40:48
3284
原创 RDF简介RDF
一、什么是 RDF? RDF(Resource Description Framework), 一种用于描述Web资源的标记语言。RDF是一个处理元数据的XML应用,所谓元数据,就是“描述数据的数据”或者“描述信息的信息”。如:书的内容是书的数据,而作者的名字、出版社的地址或版权信息就是书的元数据。RDF 被设计的目的不是为了向人们显示出来RDF 被设计为可被计算机阅读
2013-09-18 20:54:23
1356
转载 几种压缩算法原理介绍
几种压缩算法原理介绍RLERLE 又叫 Run Length Encoding ,是一个针对无损压缩的非常简单的算法。它用重复字节和重复的次数来简单描述来代替重复的字节。尽管简单并且对于通常的压缩非常低效,但它有的时候却非常有用(例如, JPEG 就使用它)。1.1. 原理图 2.1 显示了一个如何使用 RLE 算法来对一个数据流编码的例子,其中出现六次的符号‘ 93 ’已经用 3
2013-09-10 10:24:57
951
转载 htmlparser的用法
需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉 nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求,因此先研究一 下htmlparser的使用,有空再研究neko
2013-08-30 21:21:16
687
转载 HTML 中 META tag 的作用
meta是用来在HTML文档中模拟HTTP协议的响应头报文。meta 标签用于网页的与中,meta 标签的用处很多。meta 的属性有两种:name和http-equiv。name属性主要用于描述网页,对应于content(网页内容),以便于搜索引擎机器人查找、分类(目前几乎所有的搜索引擎都使用网上机器人自动查找meta值来给网页分类)。这其中最重要的是description(站点在搜索引擎上的描
2013-08-30 20:57:49
1005
转载 基于Berkeley DB实现的持久化队列
队列很常见,但大部分的队列是将数据放入到内存.如果数据过多,就有内存溢出危险,而且长久占据着内存,也会影响性能.比如爬虫,将要抓取的URL放到内存,而URL过多,内存肯定要爆.在读Heritrix源码中,发现Heritrix是基于Bdb实现了一个持久化队列,于是我就将这块代码独立出来,平时使用也蛮爽的,现在拿出来共享.同时数据已经持久化,相比放在内存的一次性,可以循环累加使用. 大家也知
2013-06-03 09:36:58
981
原创 MD5加密,并转换为16进制
背景:在做爬虫的URL处理专题中需要对URL进行处理再存储。要求: Java 中对数据进行MD5加密,并转换为16进制,以字符串的形式输出(1) 在Java中,java的java.security.MessageDigest已经定义了MD5的计算,得到的结果是128位整数。(2) 将此128位转换为十六进制以字符串的形式输出下面直接来代码import j
2013-06-02 12:54:04
3916
转载 谷歌面试题:给定能随机生成整数1到5的函数,写出能随机生成整数1到7的函数
给定能随机生成整数1到5的函数,写出能随机生成整数1到7的函数。我的想法:编写一个生成0和1的随机函数: rand_01()step1. 调用给定的随机函数original_rand()生成一个数 如果==3 goto step1 如果如果>3 return 1 编写一个生成1到7的随机函数: rand_17()调用生成0和1的随机函数3次,构成00
2013-05-22 08:55:14
773
原创 自己动手写网络爬虫
讲解网络爬虫开发的,介绍如何应用云计算架构开发分布式爬虫。猎兔搜索工程师多年项目经验总结深入介绍Web数据挖掘实现过程光盘中提供了高效的代码解决方案案例均使用流行的Java语言编写目目录第1篇 自己动手抓取数据第1章 全面剖析网络爬虫 31.1 抓取网页 41.1.1 深入理解URL 41.1.2 通过指定的URL抓取网页内容 61.1.3
2013-04-18 09:59:58
913
转载 JAVA之URL
一、用JAVA实现URL 在JAVA中,Java.net包里面的类是进行网络编程的,其中java.net.URL类和java.net.URLConection类使编程者方便地利用URL在Internet上进行网络通信。1、创建URL对象 URL类有多种形式的构造函数:(1) URL ( String url) //url代表一个绝对地址,URL对象直接指向这
2013-04-17 21:19:53
479
原创 在 eclipse 下的heritrix1.14.4的配置
在其他帖子上看到有Eclipse 配置 Heritrix 1.14.4的文章,对其进行真理 Eclipse 配置 Heritrix 1.14.4的配置过程如下: 1. 首先从http://sourceforge.net/projects/archive-crawler/ 中下载 heritrix-1.14.4-src.zip(Windows) 2. 在Eclips
2013-04-07 20:33:24
674
转载 字符串匹配
本文主要介绍KMP算法和BM算法,它们分别是前缀匹配和后缀匹配的经典算法。所谓前缀匹配是指:模式串和母串的比较从左到右,模式串的移动也是从左到右;所谓后缀匹配是指:模式串和母串的的比较从右到左,模式串的移动从左到右。看得出来前缀匹配和后缀匹配的区别就仅仅在于比较的顺序不同。下文分别从最简单的前缀蛮力匹配算法和后缀蛮力匹配算法入手,详细的介绍KMP算法和BM算法以及它们的实现。 KMP算法
2013-03-13 21:56:11
504
原创 计算机是如何启动的?-------- 打开电源到开始
计算机是如何启动的?-------- 打开电源到开始计算机的整个启动过程分成四个阶段。 一、第一阶段:BIOSCPU读取中ROM芯片中的BIOS-----基本輸出輸入系統"(Basic 无效/Output System)。1. 1 硬件自检BIOS 程序检查硬件能否满足运行的基本条件,这叫做"硬件自检"(Power-On Self-Test),缩写为 POST。
2013-03-13 15:06:01
566
转载 lstat
lstat 函数名: lstat 功 能: 获取一些文件相关的信息 用 法: int lstat(const char *path, struct stat *buf); 参数: path:文件路径名。filedes:文件描述词。buf:是以下结构体的指针struct stat { dev_t st_dev; /* 文件所
2012-02-29 08:49:10
1098
转载 Linux下常用函数-进程函数
atexit(设置程序正常结束前调用的函数) 相关函数 _exit,exit,on_exit表头文件 #include定义函数 int atexit (void (*function)(void));函数说明 atexit()用来设置一个程序正常结束前调用的函数。当程序通过调用exit()或从main中返回时,参数function所指定的函数会
2012-02-24 08:31:45
414
转载 unix 文件I/O之诠释
Unix系统中的大多数文件I/O只需用到5个函数:open,read,write,lseek以及close.其它与文件I/O相关的函数还有:create,pread,pwrite,dup,dup2,sync,fsync,fdatasync,ioctl。其中open,create,fcntl,sync,fdatasync五个函数包含在头文件中.其它的close,lseek,read,wr
2012-02-23 08:51:28
415
转载 java接口、抽象类和内部类的区别
定义:1.接口(interface),接口被用来建立类与类之间关联的标准。Java codepublic interface ITest{public void test();}public class TestImpl implements ITest{public void test(){System.out.println("test");}}
2012-01-02 09:10:34
375
原创 SQLite查找表是否有时有记录
SQLiteDatabase db= SQLiteDatabase.openOrCreateDatabase(this.getFilesDir()+"/Diary_aks.db3", null);//在Oncreate中打开数据库Diary_aks.db3if(tabIsExist("User")){//查找表USer是不为空 则跳转到 LoginActivityintent=new
2011-12-28 11:38:09
1004
转载 Android2.2完全退出程序
在Android开发的时候,需要给某按钮或者某事件赋予完全退出程序的方法。 Android中有一个很常用的方法是finish(); finish()可以返回Activity堆栈中的上一个Activity,即pop(),如果当前Activity已是最底层的Activit则会退出程序。 这就引出一个问题了: 如果当Activity1 跳转到 Activity2
2011-12-28 11:29:00
305
转载 走向DBA,优化数据库
最近公司来一个非常虎的DBA,10几年的经验,这里就称之为蔡老师吧,在征得我们蔡老同意的前提下 ,我们来分享一下蔡老给我们带来的宝贵财富,欢迎其他的DBA来拍砖。 目录1、什么是执行计划?执行计划是依赖于什么信息2、 统一SQL语句的写法减少解析开销3、 减少SQL语句的嵌套4、 使用“临时表”暂存中间结果5、 OLTP系统SQL语句必须采用绑定变量6、 倾斜字段的
2011-12-22 21:08:39
327
原创 表单
HTML 表单用于搜集不同类型的用户输入。实例文本域 (Text field)本例演示如何在 HTML 页面创建文本域。用户可以在文本域中写入文本。 密码域 本例演示如何创建 HTML 的密码域。 (可以在本页底端找到更多实例。)表单表单是一个包含表单元素的区域。表单元素是允许用户在表单中(比如:文本域、下拉列表、单选框、复选框等等)输入信息的元素。
2011-12-02 15:24:00
404
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人