- 博客(70)
- 资源 (8)
- 收藏
- 关注
原创 spark-shell 高级操作
一、系统环境Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 1.2.0 /_/Using Scala version 2.10.4 (Java HotSpot(
2015-02-03 13:05:08
873
原创 加载类型库/DLL 时出错。 (Exception from HRESULT: 0x80029C4A (TYPE_E_CANTLOADLIBRARY)
由于项目过程中需要提交数据库开发文档,数据库已经全部设计好了,但是不想手工去复制粘贴到word,所以就找努力寻找数据库文档生成工具,最后找到了一个免费的软件叫:动软代码生成器。这个动软代码生成器是用c#写的,与微软是无缝兼容的,但是我没有装office,于是就下载了office,然后用360卸载了wps。接下来使用动软代码生成器连接数据库,生成数据库文档,结果报了一下错误:System
2014-12-13 14:43:38
26370
转载 R语言数据结构重组(空闲时间一定要好好看看)
一、通过重新构建数据进行整形数据整形最直接的思路就把数据全部向量化,然后按要求用向量构建其他类型的数据。这样是不是会产生大量的中间变量、占用大量内存?没错。R语言的任何函数(包括赋值)操作都会有同样的问题,因为R函数的参数传递方式是传值不传址,变量不可能原地址修改后再放回原地址。矩阵和多维数组的向量化有直接的类型转换函数: as.vector,向量化后的结果顺序是先列后行再其他:> (
2014-11-30 16:20:06
5815
转载 R语言中使用支持向量机
R语言中使用支持向量机Including the SVM packageThe SVM package is in a package called "e1071." Firt you need to set the path to include the directory where the e1071 package is. For example, if e1071 is in
2014-11-30 15:57:06
3954
原创 R语言学习笔记——日期时间处理
一、在利用R语言实际工作中,我们经常需要将字符串转换成时间,或者将时间转化成字符串,R语言和其他语言一样,你要告诉它如何转化?也就是告诉它format,它就可以正常的转化,但是在实际中,我碰到了一下几个很难注意的问题,先总结如下:计算机如何理解日期:日期格式(也就是Date)表示为自1970年1月1日相对的数量,较1970-01-01更早的日期表示负值。(大部分语言都是这么处理的) 大
2014-11-14 16:02:48
8817
原创 R语言机器学习笔记——垃圾邮件分类
rm(list = ls())if(require(tm) == FALSE) { install.packages("tm") library(tm)}if(require(ggplot2) == FALSE) { install.packages("ggplot2") library(ggplot2)}spam.path spam2_pa
2014-11-11 18:31:30
6303
转载 Python入门
假设我们有这么一项任务:简单测试局域网中的电脑是否连通.这些电脑的ip范围从192.168.0.101到192.168.0.200. 思路:用shell编程.(Linux通常是bash而Windows是批处理脚本).例如,在Windows上用ping ip 的命令依次测试各个机器并得到控制台输出.由于ping通的时候控制台文本通常是"Reply from ... " 而不通
2014-10-24 10:36:44
731
原创 commons-cli jar包的使用
一、简介import org.apache.commons.cli.CommandLine;import org.apache.commons.cli.CommandLineParser;import org.apache.commons.cli.GnuParser;import org.apache.commons.cli.HelpFormatter;import org.apach
2014-08-27 09:58:38
8939
原创 XulRunner的下载地址
http://ftp.mozilla.org/pub/mozilla.org/xulrunner/releases/10.0.4esr/runtimes/
2014-08-21 20:44:40
6249
1
原创 CountDownLatch的介绍和使用
1、类介绍java.util.concurrent类 CountDownLatchjava.lang.Objectjava.util.concurrent.CountDownLatch
2014-08-14 18:13:31
775
转载 BDB 封装
/* * This file is part of the Heritrix web crawler (crawler.archive.org). * * Licensed to the Internet Archive (IA) by one or more individual * contributors. * * The IA licenses this
2014-07-30 10:34:25
969
转载 java正则表达式
众所周知,在程序开发中,难免会遇到需要匹配、查找、替换、判断字符串的情况发生,而这些情况有时又比较复杂,如果用纯编码方式解决,往往会浪费程序员的时间及精力。因此,学习及使用正则表达式,便成了解决这一矛盾的主要手段。 大 家都知道,正则表达式是一种可以用于模式匹配和替换的规范,一个正则表达式就是由普通的字符(例如字符a到z)以及特殊字符(元字符)组成的文字模式,它 用以描述在查找文字主体时待匹配
2014-07-27 14:52:39
728
原创 Heritrix3 控制爬取链接
package org.wisdom.heritrix.plugins.frontier;/* * This file is part of the Heritrix web crawler (crawler.archive.org). * * Licensed to the Internet Archive (IA) by one or more individual * co
2014-07-24 09:34:06
1152
转载 反爬虫技术
因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。一些智能的搜索引擎爬虫的爬取频率比较合理,对网站资源消耗比较少,但是很多糟糕的网络爬虫,对网页爬取能力很差,经常并发几十
2014-07-19 14:13:18
8568
转载 gcc编译含math.h程序的奇怪现象(并非未添加-lm)
gcc编译含math.h程序的奇怪现象(并非未添加-lm) Powered by lihux @ ustc 最近学习linux下编程时发现一个小问题: 一个最简单的main.c程序 #include #include int main() { double a = 4; sqrt(a); return 0; }
2014-05-11 16:45:07
6095
转载 BM算法
O了O了!我现特想说:一个人Boyer-Moore都敢闹明白,他还有什么不敢的呢^_^ 经典单模式匹配算法:KMP、BM;经典多模式匹配算法:AC、Wu-Manber。貌似实用中,KMP跟C库strstr()效率相当,而BM能快上3x-5x。于是小女不才花了小天的功夫来研究这个BM算法。BM如何快速匹配模式?它怎么跳跃地?我今儿一定要把大家伙儿讲明白了,讲不明白您佬跟帖,我买单,包教包会。
2014-05-10 20:36:42
989
转载 git与github在ubuntu下的使用
git与github在ubuntu下的使用最近开始使用git对kohana3的文档做一些补充的工作,使用了git 和 github ,从了解到使用,还是有一点距离,下面是总结的一些方法。1、Git的安装我使用了ubuntu 10.04 ,默认情况下,ubuntu 中并没有安装,所以首先需要在系统中进行 git 的安装。sudo apt-get install git
2014-04-12 15:47:45
822
转载 heritrix1.14升级到3.1
由于本人正在准备将heritrix1.14升级到3.1 ,觉得这篇文章挺有用的,于是就cp一下,记录下来,非本人所原创,下面是原创的文章: 网上已经有几篇Heritrix 1.14版本的Eclipse搭建的文章,说的比较详细。本人下载了Heritrix 3.1,该版本相对Heritrix 1.14版本变化已经较大,在研究Heritrix零星的几个文档以后终于把环境搭建成功了,并把
2014-04-12 15:40:18
1029
转载 安装StatTransfer过程的错误libstdc++.so.5解决
解决libstdc++.so.5的帖子:转自:http://hi.baidu.com/jch109/item/7f11c9a4605bb0278919d3e1Ubuntusudo apt-get install libstdc++5 末果,说找不到这个包,但是有 libstdc++6选择手动安装:1. 下载安装包: wget -c http://free.nchc.org.
2014-04-06 15:02:33
1561
原创 R语言学习笔记——R语言数据处理基本操作
#############操纵日期和缺失值###########################不要说别人的事情,做好自己的事情###################author:clebeg 2014/04/08###########实验数据leadership <- data.frame(manager = numeric(0), date =
2014-04-06 11:01:10
2720
原创 R语言学习笔记——R语言绘图
###############test1############################################# graph test 2014.04.03 #############加入mtcars对象到对象搜索范围之内 其实更加推荐使用的是 with#用attach如果对象中出现名字重复的,将以当前内存中的名字作为最优的attach(mtcars)#查看对象的结构
2014-04-05 11:08:14
3504
转载 线性规划
glpk http://www.gnu.org/software/glpk/glpk.html The GLPK package includes the following main
2014-03-31 10:32:25
1852
转载 解决 Ubuntu 下风扇一直高速旋转的方法
刚接触Linux时就是用的Ubuntu,很喜欢它。但是每次进入ubuntu后,即使我什么都不做,笔记本的风扇都会高速的旋转,发出“呼呼”的响声(唉,Ubuntu的缺陷啊)。起初我是没注意到的,但是后来总会在不经意间听到电脑高速运转的响声。影响心情不说,这样也会对电脑造成很大的负担,谁可以在不休息的情况下一直工作,那不累趴下才怪。所以就到网上找了好多资料,好像解决方法还有好多种。
2014-03-30 20:14:24
3692
转载 Heritrix —— eclipse 安装与配置
1.Heritrix 下载 Heritrix使用的是1.14.4(2010-5-10 发布),从SourceForge(http://sourceforge.net/projects/archive-crawler/files/)上下载。每个版本都有四个压缩包,两个 .tar.gz 包用于 Linux 下,.zip 用于 windows 下。其中heritrix-1.14.4.zip
2014-03-29 16:19:54
960
原创 爬虫 Heritrix 学习笔记 —— Heritrix安装与简单配置
Heritrix安装与简单配置 由于项目需要,需要利用爬虫在互联网上爬取数据,在 Nutch 与 Heritrix 之间选择了 Heritrix,前段时间自己写了一个爬虫,效率太低了,不过对于爬虫的基本情况已经心中有算,现在利用别人写的爬虫,而且是经过考验的,自然效率会比自己写的高很多。至于 Nutch 与 Heritrix 的比较就暂不讨论了。第
2014-03-29 15:46:16
1697
原创 ssh传递本地文件到服务器
scp works/guangyao/rworkplace/.RData clebeg@202.38.221.21:/home/clebeg/桌面/R/rworkplace
2014-03-23 20:41:39
943
原创 R语言与多元统计分析 —— 多元正态分布
1、如何用R语言画二元正态分布的曲面图形下面主要用两种技术来实现:注意:z 的列维是 y 的长度,行维是 x 的长度(即 z 包含每一种可能的 (x, y) 点 的值) 第一种使用 persp(x, y, z)函数:下面看代码fn = function(x, y) { sigma <- matrix(c(20,0,0,20), c(2,2)) u <- c
2014-03-20 16:27:53
24535
3
原创 算法学习笔记 —— MergeSort 的一种循环实现
public class MergeSort { public static void main(String[] args) { int[] dealArray = new int[]{11, 22, 5, 3, 6, 1, 10, 7, 8}; mergeSort(dealArray, 9);//注意此处传递的是对象 for(int i = 0; i < 9; i++)
2014-03-18 23:03:19
780
原创 RMySQL学习笔记——RMySQL基本操作
RMySQL基本操作:下面列出 RMySQL 的基本操作,基本上都会列出相应的SQL语句:注意以 “mysql> ” 开头的就是对应的SQL语句1、连接数据库> con <- dbConnect(MySQL(), user="root", password="", dbname="test", host="localhost.localdomain")//相当与SQL
2014-03-14 17:56:46
1111
原创 Chrome插件开发学习——开发实战
一、为了获取用户点击时候的信息,用 js 很容易实现 content.js (注意必须写成单独的js页而且需要在manifest.json 里面注册)1、如何注册呢?任意一个模式匹配本质上都是一个以认可的协议(例如:http, https, file, ftp 或者chrome-extension)开头的URL,只是URL你可以包含"*"字符.这里有一种特殊的模式匹配,它表示所有已认
2014-03-14 16:34:43
1182
原创 Chrome插件开发学习——开发进阶
一、应用场景描述?最近在做爬虫,想要对爬到的网页进行分析!最要做两块分析:第一:链接分析 链接分析主要是如下流程step1:分析是否从某个页面中提取链接(列表页需要提取链接,内容页不需要提取)step2:提取某个范围内的链接(比如说正文链接 此时需要匹配模板 比如是否循环匹配)step3:过滤某些链接 因为模板不可能做到过滤出的东西完全符合我们的需求,所以还需要经过一定的删选比如:链接
2014-03-14 16:34:41
784
原创 Chrome插件开发学习——开发入门
一、如何快速开发一个 Chrome 插件,根据 Chrome 官方网站上面的教程可以快速开发一个小插件Chrome官方开发文档地址:http://code.google.com/chrome/extensions/dev/devguide.html具体对其中每一个步骤的理解:第一步:新建一个文件夹,准备一个图标,建议128×128大小的。然后创建一个文件,命名为manifest.
2014-03-14 16:34:39
941
原创 Java学习笔记——相对路径研究
一、为什么需要研究相对路径?在写程序的时候,很难避免不去写配置信息,如何才能保证配置信息,在你的java程序移植到其他平台上面是,还是可以正确读取你写的配置信息呢?如果你使用绝对路径,那你就惨了,万一别人的电脑连C盘都没有,是linux主机怎么办?这个时候就要学会使用相对路径二、java相对路径的特点java相对路径是指相对于 java 文件的路径,而且提倡使用 / 因为java虚拟机会
2014-03-14 16:34:37
703
原创 solr查询——根据时间范围查询
一、今天为了满足系统对时间范围查询的需求,开始研究怎么用 solr 对时间建立索引查看 solr 示例 schema.xml ,发现里面有 date 类型,但是 date类型到底怎么用呢?于是自己就写了一个测试代码。二、测试过程分析第一次测试:首先指望 solr可以识别所有的时间格式的字符串,想想也是可笑的?试了一下,果然报错,你随便给它一个时间(比如:2013-04-25),运行时报
2014-03-14 16:34:34
15953
原创 怎么在windows下面使用git
tortoise 乌龟是一个系列,帮助用户使用 git 和 svn, 先下载 git 的客服端,然后下载 tortoisegit就可以在windows 下面用图形方式操作git了,但是学习在linux 下面用命令行使用git 也是必须的技能
2014-03-14 16:34:32
654
R语言机器学习——第三章的垃圾邮件分类的数据
2014-11-11
扩展Heritrix3指定链接爬取
2014-08-01
基于 spring 架构用 Maven 构建的用户登录模块
2014-04-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人