- 博客(93)
- 收藏
- 关注
原创 mac,windows,linux 换行处理
如果是在windows上处理unix文件,使用如下命令:D:\>TYPE unix_file | FIND /V "" > dos_file 如果是在unix文件拿到windows文件, 使用如下命令:tr -d '\r' < inputfile > outputfile 或者tr '\r' '\n' < inputfile > outpu...
2016-11-04 12:36:53
220
原创 squid 高匿配置 用户名密码配置
1. 安装squidyum install squid2. 修改配置文件// 在 http_access deny all 上面加上如下权限配置,注意,一定要在这句上面//用户名密码配置auth_param basic program /usr/lib64/squid/basic_ncsa_auth /etc/squid/passwdacl auth_user proxy...
2016-07-15 12:44:50
451
原创 .gitignore java 版本
# Operating System Files*.DS_StoreThumbs.db*.sw?.#**#*~*.sublime-*# Build Artifacts.gradle/build/target/bin/dependency-reduced-pom.xml# Eclipse Project Files...
2016-07-13 21:00:42
225
原创 https小结
https = http 加上 SSL 传输层https 主要作用是传输的内容都是加密的,防止被篡改 , 同时很好的防止了被劫持。浏览器内置的证书颁发机构就那么多。都是大的权威的机构。目前免费的有StartSSL. ...
2016-05-19 18:33:19
186
原创 sed替换^M为回车
sed -e 's/^M/\n/g' myfile.txt注意 ^M 使用“CTRL-V CTRL-M”生成,而不是直接键入“^M”。
2016-04-29 18:05:58
1280
原创 总结 XSS 与 CSRF 两种跨站攻击
在那个年代,大家一般用拼接字符串的方式来构造动态 SQL 语句创建应用,于是 SQL 注入成了很流行的攻击方式。在这个年代, 参数化查询已经成了普遍用法,我们已经离 SQL 注入很远了。但是,历史同样悠久的 XSS 和 CSRF 却没有远离我们。由于之前已经对 XSS 很熟悉了,所以我对用户输入的数据一直非常小心。如果输入的时候没有经过 Tidy 之类的过滤,我一定会在模板输出时候全部转义。所...
2016-04-28 10:45:41
127
原创 php BOM 问题
最近合作开发项目 总发现php输出的不对 代码一模一样也不行 后来机智的我感觉是编码有问题 发现都是utf-8 的 最后把文件内容都删除之后发现还有3个字符大小 用vim -b 命令打开之后发现是 <feff> 感觉问题就出在这里了。 后来才发现 这是utf-8里面的 BOM , 恶心的是BOM 会随着echo 输出 导致不对。 附上几个命令 查...
2015-10-20 15:47:37
177
原创 添加用户跟组
1、添加用户,首先用adduser命令添加一个普通用户,命令如下:#adduser tommy//添加一个名为tommy的用户#passwd tommy //修改密码Changing password for user tommy.New UNIX password: //在这里输入新密码Retype new UNIX password: //再次输入新密码passwd:...
2015-09-21 14:46:57
194
原创 xargs 用法
原博客地址: http://blog.youkuaiyun.com/taiyang1987912/article/details/42774517在使用 find命令的-exec选项处理匹配到的文件时, find命令将所有匹配到的文件一起传递给exec执行。但有些系统对能够传递给exec的命令长度有限制(#getconf ARG_MAX可以获得操作系统允许的最大参数长度为2621440),这样在find...
2015-07-03 16:44:19
206
原创 shell 编程
arr=(${line//,/ })以 , 分割 相当于 split 函数,这是在没有空格的情况下. echo "$user"|cut -d ":" -f$i 这个更有通用性,一定要加 "", 在while read line 的时候 不加"" 会有问题。...
2014-07-05 18:40:27
193
原创 lucene 4.6 之indexing 之 IndexChain,索引数据结构
/* This is the current indexing chain: DocConsumer / DocConsumerPerThread --> code: DocFieldProcessor --> DocFieldConsumer / DocFieldConsumerPerField...
2014-04-06 21:17:34
159
原创 java class reload 动态加载
在运行时动态加载jar包容易,但是如果想动态替换运行时的类,需要定义自己的classloader , 用自己的classloader 来load这个类。具体代码如下。public class UClassloader extends URLClassLoader{ public UClassloader(URL[] urls) { super(urls); } ...
2014-04-03 22:29:14
303
lucene 存储,访问小技巧
lucene为了能够是信息存储的空间更小,访问速度更快,用了一些小技巧,下面介绍一些技巧:1. Prefix + Suffix 在保存Term Dictionary的时候,会保存几乎所有的词,这样索引文件会非常大,当某个词跟前面一个词拥有相同前缀的时候,后面的词仅仅保存前缀在词中得偏移,以及除了前缀之外的字符串。比如存储如下几个词: term, termagancy, ter...
2014-03-30 17:58:05
129
原创 lucene 4.6 之indexing 之 IndexWriter, DocumentWriter
lucene 的操作主要分成 indexing 和 searching , 两个操作也就完成了整个闭环操作,咱们先从这个indexing说起。class IndexWriter 可以说是lucene暴露给上层应用的一个类。上层应用程序通过这个类打开lucene的索引世界。通过了解这个类得成员变量来了解这个类到底是干什么的,有几个比较重要的对象:private final Direc...
2014-03-28 10:31:02
171
原创 实用sql语句
1。 加权限:grant alter,create,select,insert,update,delete,index on recommend.* to growth@10.1.1.1 Identified by "growth";flush privileges; 2. 在更新这条数据的时候更新时间:alter table feed change update_tim...
2014-03-03 20:52:56
97
原创 centos 搭建 httpd 服务器 以及配置多域名 反向代理
首先使用 yum 安装 输入命令:yum install httpd php然后理论上httpd 已经把 php modul加进去了 没加请手动添加:LoadModule php5_module modules/libphp5.so 想要在html中执行php 代码,表示以下后缀名可以使用php引擎,请输入:AddType application/x-httpd-ph...
2014-02-28 18:55:56
229
原创 lucene 4.6 之索引文件格式
名词解释:document 包含一系列的fieldsfield是一系列terms的代号term是一系列的bytes 倒排索引:这个索引存储了关于这个term的一些统计,为什么叫做倒排索引,因为这个能够列出包含这个term的所有文档,这是正常关系的一个逆,正常关系是一个文档列出里面有哪些词。 fields的类型:一个field能够被stored,如果这么设置,...
2014-02-26 19:50:38
121
原创 lucene 之 全文检索概述
我们日常生活中的数据可以分成两种,一种是结构化数据,还有一种是非结构化数据。结构化数据就是固定格式和有限长度的数据,比如数据库和元数据等等。非结构化就是无固定格式和不定长的数据,比如邮件和word文档。还有介于两者之间的,半结构化数据,比如XML,html等,看具体需求可以有不同的处理方法。非结构化数据还可以叫做全文数据。搜索引擎一般是针对这种数据来索引。一种最直观的方法可...
2014-02-05 16:22:26
108
原创 find 用法以及经典案例
删除5天以上的log: find deploy/log -type f -ctime +5 -exec rm -f {} \; 替换文件夹下指定文件字符串: find . -name "*.html" | xargs sed -i "s/xxxx/oooo/g" 注意特殊字符的转义 如 [{($ 比如 {:U('item/index',array('id'...
2014-02-05 10:25:54
183
原创 ssh 免密码登陆
ssh-keygen -t rsa (连续三次回车,即在本地生成了公钥和私钥,不设置密码ssh root@B "mkdir .ssh;chmod 0700 .ssh" (需要输入密码) scp ~/.ssh/id_rsa.pub root@B:~/.ssh (需要输入密码) 在B上的命令: touch /root/.ssh/authorized_keys (如果已经存在这个文件, 跳过这条) ...
2014-01-26 10:51:05
92
原创 solr searching 过程解析
翻译自 Apache Solr Reference Guide solr提供了一个十分灵活,可拓展的搜索特性,当我们发送一个请求的时候,一个search query 被一个叫做requst handler处理,solr提供许多类型的request handler,有的是为了处理搜索请求的,还有一些设计成帮助管理请求的。 能够处理搜索请求的request handler叫做 q...
2014-01-10 21:34:58
118
原创 Thread 状态详解
原文:http://www.cnblogs.com/DreamSea/archive/2012/01/11/JavaThread.html 不废话直接上图:1)优先级(priority)每个类都有自己的优先级,一般property用1-10的整数表示,默认优先级是5,优先级最高是10;优先级高的线程并不一定比优先级低的线程执行的机会高,只是执行的机率高;默认一个线程的优先级和创建...
2014-01-09 12:04:22
318
原创 solr indexing 和基本的数据操作
翻译自 Apache Solr Reference Guide indexing:solr的索引能够接受不同途径的index,包括XML文件,CSV文件,数据库里的表,或者word,PDF中的信息。有三种方式可以建立solr的索引,可以用tika中的solr cell 来给word,PDF等office文件来建立索引,可以使用http请求来建,还可以使用提供的标准API,这种方式...
2014-01-09 12:00:11
181
原创 理解solr中的 Analyzer,Tokenizer,Filter
翻译自 Apache Solr Reference Guide Analyzer:analyzer负责检查这个field,然后生成一个token流,一般作为fieldType的一个字节点存在,比如:<analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory...
2014-01-08 18:24:29
251
原创 solr Document,Fields,Schema设计概况
翻译自 Apache Solr Reference Guide solr一个最基本的设计原则是简洁, 你告诉他很多信息,然后问他一些问题,他会给你回答的一段信息,你喂给他的这部分叫做 indexing, 你问他的问题叫做 query。一个理解solr的方法是举个例子,我们用一个美食的活页本,每一次你加一个活页到这本书中,你更新在最后面的索引,你列举菜的每个成分和页码在最后,设想一...
2014-01-08 00:25:10
221
原创 solr admin UI
翻译自 Apache Solr Reference Guide 如果用solr自带的jetty来运行程序,http://hostname:8983/solr/ 是主界面。左边是logo和菜单, 以此作用是,看一些系统信息,系统打出来的log,每一个Core的信息,java system的参数,线程运行情况。 在每一个ui的最底端,是一些帮助文档连接到一些官网,关于am...
2014-01-07 14:36:25
143
原创 进程cpu过高问题排查
一,结合linux基本命令和jmap,jstack等工具。 根据top命令,发现PID为28555的Java进程占用CPU高达200%,出现故障。 通过ps aux | grep PID命令,可以进一步确定是哪个进程出现了问题。怎么定位到具体线程或者代码呢? 显示当前java进程的线程列表ps -mp pid -o THREAD,tid,time从中可以找到了耗...
2013-11-18 15:34:24
355
原创 mahout中LDA简介以及示例
翻译自: https://cwiki.apache.org/confluence/display/MAHOUT/Latent+Dirichlet+Allocation 简介:Latent Dirichlet Allocation (Blei et al, 2003)是一个强大的学习方法将words聚到一些topics里面,以及把一些document表示成topics的一些集合。...
2013-11-18 13:07:08
243
原创 awk and hadoop 之reducer
配合上面一篇 mapper篇,这篇主要讲在reducer的时候怎么处理两个文件中的内容,在mapper中我们给每个文件中的内容打了 tag ,在第二个字段,然后就能处理了,只要key一样,就可以弄到一个文件中去。awk -F '\t' '{ id = $1; tag = $2; if (0 == tag){ idPre = $1; }else (1 == t...
2013-11-07 15:50:59
175
原创 awk join操作
有没有遇到场景,要把两个集合做一个join操作,用awk我们可以很方便的实现这个效果,设计到awk如何从两个文件中读取内容.直接上代码:awk -F ',' 'BEGIN{ ...
2013-10-28 14:53:10
250
原创 solr 跑起来
一个项目要求,需要做一个站内搜索,由于偏爱apache 的东西,由于喜欢他们的wiki,所以选择了solr,所以选择了tomcat 作为容器。我们的数据一般都放在db中, 所以在初始化的时候,我们必须从数据库中倒入数据,作为原始的积累。 好的,三步走,跟我来。1. 从apache的官网下载solr 和 tomcat 最新的包,并解压。2. 在solr的example中...
2013-10-14 16:54:32
151
原创 awk 常用函数
Copy From: http://blog.youkuaiyun.com/xgdofull/article/details/5429858awk提供了许多强大的字符串函数,见下表:awk内置字符串函数gsub(r,s) 在整个$0中用s替代rgsub(r,s,t) 在整个t中用s替代rindex(s,t) 返回s中字符串t的第一位置length(s) 返回s长度match(s...
2013-09-22 18:29:16
150
原创 awk and hadoop之mapper
1. 在awk 中mapper的时候我们经常会合并不同的文件,取我们想要的不同的字段。 awk -F "\t" '{ filename = ENVIRON["mapreduce_map_input_file"]; if (index(filename, "xxxx") > 0) { // xxx } else { //xxxx...
2013-08-07 17:19:27
167
正则表达式优化
正则表达式的优化 在Jeffrey E. F. Friedl 的<<精通正则表达式>>中提到了几种技巧。今天着重说一种比较实用的。 比较简单的: 在类似 .* 或者 [\s\S]*中匹配的时候,量词* 默认是贪婪的,启用最大匹配模式, 会匹配到尽量多的字符串,如果我们的需求是匹配<b>text</b>中的text,这样就...
2013-07-22 12:35:15
169
原创 正则表达式 元字符备查
将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。$ 匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配...
2013-07-21 19:36:06
77
原创 linux java 线上问题排查
转自: http://www.myexception.cn/operating-system/415201.html 线上故障问题排查技能记载一1. pgrep 查询进程的工具 pgrep 是通过程序的名字来查询进程的工具,一般是用来判断程序是否正在运行。在服务器的配置和管理中,这个工具常被应用,简单明了用法: pgrep 参数选项 程序名eg: pgrep java #查...
2013-06-17 19:30:48
214
原创 postfix 扣下退信
有时候我们希望往外的发的邮件给你退回来的邮件接下,但是不做处理。这时候需要设置:1. 在master.cf中设置新的传输法:ondemand unix - - n - - smtp2. 要求postfix自动延缓任何通过ondemand递送的邮件。只要将新设的 ondemand传输法列在main.cf的defer_transports参数中,...
2013-06-14 11:50:54
228
原创 linux 重命名 rename
废话不说 直接上脚本 ,本人亲测好使。 #!/bin/bash #script_name:rename_ALLfind...
2013-06-09 12:08:03
352
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人