- 博客(28)
- 收藏
- 关注
原创 搜索引擎中的爬虫和倒排索引技术
我书读得少,你不要骗我。这可能是最适合我们的一句话了。昨晚跟以前的部长祥仔爷聊天,得知他现在在做搜索引擎的优化,在那家公司工作,他便跟我说起他的专业知识。但是由于我书读得太少了,很多专业术语都听不懂,连爬虫这个词语我都听得一愣一愣的,还好我记得爬虫是搜索引擎必备的。今天在看自动机的书顺带查了一下。 网络爬虫为搜索引擎从万维网下载网页。一般分为传统爬虫和聚焦爬虫。传统爬...
2017-12-25 23:45:26
475
原创 Google GSA虚拟机版本
在所有的SEO工具中,能够被称为利器的工具不多,但Google GSA虚拟机版本绝对算是一个。去年我介绍了《利用Google Search Appliance 服务器做SEO 》,不过这个正式版实在太昂贵而且根据美国的某条法律不销售给中国,所以很多人都没办法用来做SEO应用。 而Google GSA虚拟机版本就很好的解决了这个问题。GSA先讲讲这个Google GSA虚拟机版本怎么应...
2017-07-01 21:43:59
634
原创 seo 笔记
1、找200个模板,把现有的词都先做了,丰富页面 2、采集,必须持续采集,否则70M+ 流量,没戏!学学这些站点https://www.ebay.com/p/Citizen-Calibre-8700-BL8004-53E-Wrist-Watch-for-Men/70302495http://www.smzdm.com/tag/BL8004-53E/haitao/h...
2017-06-06 11:57:41
217
原创 PPython - 打通python3 + php
一.预备工具ppython 工具: http://code.google.com/p/ppython/(当然也可以到这里下载:http://down.51cto.com/data/801924) python3 网站 : http://www.python.org/getit/python3操作mysql的模块 : https://github.com/davispuh/...
2017-04-05 07:03:12
211
原创 如何打造自己的coreseek/sphinx分词词库
下面给大家介绍一下如何打造自己的coreseek分词词库。 coreseek自身带的词库不是很大,直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词 词库必不可少。i. 首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库ii. 因为下载回来的词库不是文本文件我们不能直接使用,所以要先转换成文本文件。网上找一个搜狗转 google的小工...
2017-04-04 22:20:41
340
原创 useragent收集
Linux下:Mozilla/5.0 (X11; Linux x86_64; rv:28.0) Gecko/20100101 Firefox/28.0Mozilla/5.0 (X11; Linux x86_64; rv:28.0) Gecko/20100101 Firefox/28.0Mozilla/5.0 (Linux; U; Android 5.1.1; en-US; D23...
2016-10-02 09:24:10
955
原创 火车头采集器 8.2 多页采集json格式数据方法
这里就分享几个技巧因为内容页面中不能直接获取数据,所以就需要多页采集了这个是通过获取js中的id来获取json的地址第二个需要注意的地方:内容如下内容页配置不过有时候测试不能成功,需要在内容规则中,切换到自定义固定格式的数据,感觉有缓存总是无法刷新不定字符串随便写个,然后删除也可以,基本色起到刷新的作用。经过测试这样就完成了。...
2016-09-22 16:45:32
2420
原创 coreseek笔记
coreseek安装笔记 http://www.coreseek.cn/products-install/install_on_windows/ 安装: 1. 下载coreseek win32版本:coreseek 3.2.14:点击下载、coreseek 4.0.1:点击下载、coreseek 4.1:点击下载2. 进入安装目录,点击其中test开头的文件,进行搜索...
2016-09-17 22:16:33
237
原创 php判断一句话中是否包含某个关键词
<?php $a="123456789.exe"; if(strstr($a,"exe")){ echo "exe\n";}elseif(strstr($a,"123")){ echo "一二三\n";}else{ echo "全无";} ?>
2016-09-14 14:35:05
1888
原创 解决502错误的笔记
使用socket方式连接Nginx优化php-fpm性能 TCP和unix domain socket方式对比 TCP是使用TCP端口连接127.0.0.1:9000 Socket是使用unix domain socket连接套接字/dev/shm/php-cgi.sock(很多教程使用路径/tmp,而路径/dev/shm是个tmpfs,速度比磁盘快得多) 测试...
2016-09-13 11:49:03
1309
原创 http头笔记
HTTP/1.1 200 OKServer: nginxDate: Thu, 01 Sep 2016 03:00:16 GMTContent-Type: text/html; charset=UTF-8X-Powered-By: PHP/5.6.22Set-Cookie: ypx__Session=g5v1rv0nhfv1l580kafalathj4; path=/...
2016-09-01 11:58:33
161
原创 php压缩输出
在很多时候,我们往往会问用php如何压缩html代码?常常看到别人网页上的html代码都是压缩之后输出的,那么我们如何操作呢?因为本人使用的是php语言,所以这里告诉php的压缩函数,下方说明方法:第一步,你需要对php的设置如下,php.ini:output_buffering = Off和output_handler = ob_gzhandler和zlib.out...
2016-08-31 11:35:39
270
原创 jquery产品左右滚动js代码
迷上jQuery,相对于原生JavaScript,它是如此的美妙.也因此,促使我更加的努力的研习原生JavaScript.分享一个控制左右滚动及自动滚动的样例, 昨晚花了两个多小时, 忍受着悍蚊的叮咬, 汗水的侵袭, 一行行的敲出来的血汗代码. 哈哈.封装了两种模式: 点击滚动版本DEMO自动滚动版本DEMO,源码中有详细注释.思路:点击滚动模式下,是为点击(向前/向后/数字)添加click事件...
2016-08-13 22:07:32
276
原创 三级联动,jquery获取元素索引值index()
这篇文章主要介绍了jquery获取元素索引值index()方法,需要的朋友可以参考下 jquery获取元素索引值index()方法:jquery的index()方法 搜索匹配的元素,并返回相应元素的索引值,从0开始计数。 如果不给 .index() 方法传递参数,那么返回值就是这个jQuery对象集合中第一个元素相对于其同辈元素的位置。 如果参数是一组DOM元素或者jQuery对...
2016-08-13 19:28:41
198
原创 谷歌浏览器javascript调试教程
怎样打开Chrome的开发者工具?你可以直接在页面上点击右键,然后选择审查元素:或者在Chrome的工具中找到:或者,你直接记住这个快捷方式: Ctrl+Shift+I (或者Ctrl+Shift+J直接打开控制台),或者直接按F12。打开的开发者工具就长下面的样子:不过我一般习惯与点左下角的那个按钮,将开发者工具弹出作为一个独立的窗口:下面来分别说下每个Tab的作用。Elements标签页这个就...
2016-08-09 13:18:31
205
原创 Google手机移动网站适配(双向注释)
<!-- 正文 -->HTML 中的注释在桌面版网页 (http://www.example.com/page-1) 上,添加:<link rel="alternate" media="only screen and (max-width: 640px)" href="http://m.example.com/page-1" >而...
2016-07-29 18:50:52
384
原创 lnmp_for_shop123_latest.tar.gz光年服务器 环境 安装
服务器环境安装1,运行在Linux的操作系统上,版本有RedHat、CentOS、Ubuntu或Debian。Web服务器环境:需要安装的软件有:(1)nginx 1.8 或最新稳定版(2)PHP 5.6.x 或者 PHP7 版本 PHP中需要启用的模块有: php-fpm PDO/MySQL mbstring mcrypt mhash S...
2016-07-29 18:47:58
258
原创 【Nginx重写】下支持ThinkPHP的Pathinfo和URl Rewrite模式
<!-- 正文 -->1、ThinkPHP给出了ThinkPHP的官方解决方案,如下:打开Nginx的配置文件 /etc/nginx/nginx.cof 一般是在这个路径,根据你的安装路径可能有所变化。如果你配置了vhost,而且只需要你这一个vhost支持pathinfo的话,可以直接打开你的vhost的配置文件。找到类似如下代码(不同版本的nginx可能稍有不同,...
2016-07-17 08:11:38
169
原创 Nginx修改端口号
<!-- 正文 -->修改 nginx.conf 文件实现。在 Linux 上该文件的路径为 /usr/local/nginx/conf/nginx.conf,Windows 下 安装目录\conf\nginx.conf。server { listen 80; server_name localhost; ……}改成ser...
2016-07-17 08:09:58
388
原创 sphinx 多个表查询
<!-- 正文 -->sql_query = SELECT `id`, 2 AS table_id, `username`, `password`, `email`, `salt`, `from` FROM table_2["matches"]=>array(16) {[0]=>array(3) {["id"]=>string(2...
2016-07-17 08:09:47
941
原创 nginx 控制页面缓存
<!-- 正文 -->语法:expires [time|epoch|max|pff]默认值:offexpires指令控制HTTP应答中的“Expires”和“Cache-Control”Header头部信息,启动控制页面缓存的作用time:可以使用正数或负数。“Expires”头标的值将通过当前系统时间加上设定time值来设定。time值还控制"Cache-Control"...
2016-07-17 08:09:37
187
原创 设置If-Modified-Since
<!-- 正文 -->添加这几行代码就可以了:3.1、Expires如expires.php<?phpheader('Cache-Control: max-age=86400,must-revalidate');header('Last-Modified: ' .gmdate('D, d M Y H:i:s') . ' GMT' );heade...
2016-07-17 08:09:27
3020
原创 lnmp一键安装包
系统需求:CentOS/RHEL/Fedora/Debian/Ubuntu/Raspbian Linux系统需要3GB以上硬盘剩余空间需要128MB以上内存(如果为128MB的小内存VPS,Xen的需要有SWAP,OpenVZ的至少要有128MB以上的vSWAP或突发内存),注意小内存请勿使用64位系统!安装MySQL 5.6或5.7及MariaDB 10必须1G以上内存!。...
2016-07-16 15:51:33
164
原创 html页面通过特殊链接:打电话,发短信,发邮件详细教程
采用url href链接的方式,实现在Safari ios,Android 浏览器,webos浏览器,塞班浏览器,IE,Operamini等主流浏览器,进行拨打电话功能。 1. 拨打电话在电话号码前面可以加上 + (加号)表示国际号码。如:最常用WEB页面JS实现一键拨号的电话拨打功能例子:<a href="tel:10086">10086</a>...
2016-07-16 15:49:54
414
原创 thinkphp【错误改动大全】
1、更换Nginx环境后问题解决集合$this->assign('link_curr', 'http://xx.com'.$_SERVER['REDIRECT_URL']);$_SERVER['REDIRECT_URL']获取值为空,用$_SERVER['REQUEST_URI']替换 2、出错后,只提示“系统发生错误”,而不改变http状态码的问题:每个操作模块里都加...
2016-07-16 15:48:15
164
原创 Sphinx笔记
<!-- 正文 -->--------------------------【安装篇】:----------------------------------------------------------在安装的过程中我们会碰到依赖包的问题Sphinx安装与运行测试(一)(1)、下载Sphinx从sphinx官网上找到sphinx的安装源码最新地址:htt...
2016-07-16 15:42:24
291
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅