Search Engine Friendly的URL设计

本文探讨了提高网站在Google搜索引擎排名的方法之一:通过URL重写技术将动态网页链接转化为静态链接形式,以增强搜索引擎的友好性。
提高在Google中的排名(3)

——Search Engine Friendly的URL设计

作者: 车东 Email: chedongATbigfoot.com/chedongATchedong.com

写于:2003/05 最后更新: 03/16/2005 16:28:07
版权声明:可以任意转载,转载时请务必以超链接形式标明文章原始出处和作者信息及本声明
http://www.chedong.com/tech/google_url.html

关键词:"url rewrite" mod_rewrite isapi rewrite path_info iis "search engine friendly"

内容摘要:不得不承认,将动态网页链接rewriting成静态链接是最保险和稳定的面向搜索引擎优化方式

此外随着互联网上的内容以惊人速度的增长也越来越突出了搜索引擎的重要性,如果网站想更好地被搜索引擎收录,网站设计除了面向用户友好(User Friendly)外,搜索引擎友好(Search Engine Friendly)的设计也是非常重要的。进入搜索引擎的页面内容越多,则被用户用不同的关键词找到的几率越大。在Google的算法调查一文中提到一个站点被Google索引页面的数量其实对PageRank也是有一定影响的。由于Google 突出的是整个网络中相对静态的部分(动态网页索引量比较小),链接地址相对固定的静态网页比较适合被Google索引(怪不得很多大网站的邮件列表归档和BLOG按日期归档的文档很容被搜的到),因此很多关于面向搜索引擎 URL设计优化(URI Pretty)的文章中提到了很多利用一定机制将动态网页参数变成像静态网页的形式:
比如可以将:
http://phpunixman.sourceforge.net/index.php?mode=man&parameter=ls

变成:
http://phpunixman.sourceforge.net/index.php/man/ls

实现方式主要有2种:

把URI地址用作参数传递:URL REWRITE

最简单的是基于各种WEB服务器中的URL重写转向(Rewrite)模块的URL转换:
这样几乎可以不修改程序的实现将 news.asp?id=234 这样的链接映射成 news/234.html,从外面看上去和静态链接一样。Apache服务器上有一个模块(非缺省):mod_rewrite:URL REWRITE功能之强大足够写上一本书。

当我需要将将news.asp?id=234的映射成news/234.html时,只需设置:
RewriteRule /news/(/d+)/.html /news/.asp/?id=$1 [N,I]
这样就把 /news/234.html 这样的请求映射成了 /news.asp?id=234
当有对/news/234.html的请求时:web服务器会把实际请求转发给/news.asp?id=234

而在IIS也有相应的REWRITE模块:比如ISAPI REWRITEIIS REWRITE,语法都是基于正则表达式,因此配置几乎和apache的mod_rewrite是相同的:

比对于某一个简单应用可以是:
RewriteRule /news/(/d+)/.html /news/news/.php/?id=$1 [N,I]
这样就把 http://www.chedong.com/news/234.html 映射到了 http://www.chedong.com/news/news.php?id=234

一个更通用的能够将所有的动态页面进行参数映射的表达式是:
把 http://www.myhost.com/foo.php?a=A&b=B&c=C
表现成 http://www.myhost.com/foo.php/a/A/b/B/c/C。
RewriteRule (.*?/.php)(/?[^/]*)?/([^/]*)/([^/]*)(.+?)?$1(?2$2&:/?)$3=$4?5$5: [N,I]

以下是针对phpBB的一个Apache mod_rewrite配置样例:

    RewriteEngine On
    RewriteRule /forum/topic_(.+)/.html$  /forum/viewtopic.php?t=$1 [L]
    RewriteRule /forum/forum_(.+)/.html$ /forum/viewforum.php?f=$1 [L]
    RewriteRule /forum/user_(.+)/.html$  /forum/profile.php?mode=viewprofile&u=$1  [L]

这样设置后就可以通过topic_1234.html forum_2.html user_34.html这样的链接访问原来的动态页面了。

通过URL REWRITE还有一些好处:
mod_rewrite和isapirewrite基本兼容,但是还是有些不同,比如:isapirewrite中"?"需要转义成"/?",mod_rewrite不用,isapirewrite支持 "/d+" (全部数字),mod_rewrite不支持

  • 隐藏后台实现:这在后台应用平台的迁移时非常有用:当从asp迁移到java平台时,对于前台用户来说,根本感受不到后台应用的变化;
  • 简化数据校验:因为像(/d+)这样的参数,可以有效的控制数字的格式甚至位数;

比如我们需要将应用从news.asp?id=234迁移成news.php?query=234时,前台的表现可以一直保持为 news/234.html。从实现应用和前台表现的分离:保持了URL的稳定性,而使用mod_rewrite甚至可以把请求转发到其他后台服务器上。

基于PATH_INFO的URL美化

Url美化的另外一个方式就是基于PATH_INFO:
PATH_INFO是一个CGI 1.1的标准,经常发现很多跟在CGI后面的"/value_1/value_2"就是PATH_INFO参数:
比如:http://phpunixman.sourceforge.net/index.php/man/ls 中:$PATH_INFO = "/man/ls"

PATH_INFO是CGI标准,因此PHP Servlet等都有的支持。比如Servlet中就有request.getPathInfo()方法。
注意:/myapp/servlet/Hello/foo的 getPathInfo()返回的是/foo,而/myapp/dir/hello.jsp/foo的getPathInfo()将返回的 /hello.jsp,从这里你也可以知道jsp其实就是一个Servlet的PATH_INFO参数。ASP不支持PATH_INFO
PHP中基于PATH_INFO的参数解析的例子如下:
//注意:参数按"/"分割,第一个参数是空的:从/param1/param2中解析出$param1 $param2这2个参数
if ( isset($_SERVER["PATH_INFO"]) ) {
    list($nothing, $param1, $param2) = explode('/', $_SERVER["PATH_INFO"]);
}

如何隐蔽应用:例如 .php,的扩展名:
在APACHE中这样配置:
<FilesMatch "^app_name$">
    ForceType application/x-httpd-php
</FilesMatch>

如何更像静态页面:app_name/my/app.html
解析的PATH_INFO参数的时候,把最后一个参数的最后5个字符“.html”截断即可。
注意:APACHE2中缺省是不允许PATH_INFO的,需要设置 AcceptPathInfo on

特别是针对使用虚拟主机用户,无权安装和配置mod_rewrite的时候,PATH_INFO往往就成了唯一的选择。

OK,这样以后看见类似于http://www.example.com/article/234这样的网页你就知道可能是 article/show.php?id=234这个php程序生成的动态网页,很多站点表面看上去可能有很多静态目录,其实很有可能都是使用1,2个程序实现的内容发布。比如很多WIKIWIKI系统都使用了这个机制:整个系统就一个简单的wiki程序,而看上去的目录其实都是这个应用拿后面的地址作为参数的查询结果。

利用基于MOD_REWRITE/PATH_INFO + CACHE服务器的解决方案对原有的动态发布系统进行改造,也可以大大降低旧有系统升级到新的内容管理系统的成本。并且方便了搜索引擎收录入索引。

附:如何在IIS上利用PHP支持PATH_INFO

PHP的ISAPI模式安装备忘:只试成 php-4.2.3-Win32

解包目录
========
php-4.2.3-Win32.zip c:/php

PHP.INI初始化文件
=================
复制:c:/php/php.ini-dist 到 c:/winnt/php.ini

配置文件关联
============
按照install.txt中的说明配置文件关联

运行库文件
==========
复制 c:/php/php4ts.dll 到 c:/winnt/system32/php4ts.dll

这样运行后:会发现php把PATH_INFO映射到了物理路径上
Warning: Unknown(C:/CheDong/Downloads/ariadne/www/test.php/path): failed to create stream: No such file or directory in Unknown on line 0

Warning: Unknown(): Failed opening 'C:/CheDong/Downloads/ariadne/www/test.php/path' for inclusion (include_path='.;c:/php4/pear') in Unknown on line 0

安装ariadne的PATCH
==================
停止IIS服务
net stop iisadmin
ftp://ftp.muze.nl/pub/ariadne/win/iis/php-4.2.3/php4isapi.dll
覆盖原有的c:/php/sapi/php4isapi.dll

注:
ariadne是一个基于PATH_INFO的内容发布系统,
PHP 4.3.2 RC2中CGI模式的PATH_INFO已经修正,照常安装即可。

参考资料:
URL Rewrite文档:
ISAPI REWRITE文档
IIS的ISAPI REWRITE下载(免费)
http://httpd.apache.org/docs/mod/mod_rewrite.html
http://httpd.apache.org/docs-2.0/mod/mod_rewrite.html

搜索引擎友好的URL设计
http://www.sitepoint.com/article/485
说不定这个URL原来就是articel.php?id=485

一个基于PATH_INFO的开源内容管理系统
http://typo3.com/

Google的PageRank算法说明:
http://pr.efactory.de/

<think>好的,用户想知道如何在浏览器或应用程序中添加自定义搜索引擎。我需要先理解这个问题的核心。自定义搜索引擎通常指的是让用户能够通过浏览器的搜索栏或应用程序内的搜索功能,使用特定的搜索引擎进行查询。比如,Chrome允许用户添加不同的搜索引擎,这样在地址栏输入关键词后可以直接搜索。 首先,我应该考虑不同浏览器的设置方法。比如,Chrome、Firefox、Edge等都有各自的添加方式。可能还需要提到基于Chromium的浏览器可能步骤类似。然后,对于应用程序,可能需要通过API集成,比如使用Google Custom Search JSON API或者Algolia等第三方服务。 接下来,我需要回忆相关知识。例如,在Chrome中添加自定义搜索引擎通常需要知道搜索引擎URL结构,将搜索词替换为%s。例如,Google的搜索URL是https://www.google.com/search?q=%s。用户需要进入浏览器设置,找到搜索引擎管理部分,添加新的搜索引擎,设置关键词等步骤。 对于应用程序,开发者可能需要在前端设置表单,将用户输入的查询拼接到目标搜索引擎URL中,或者使用API密钥进行认证,处理返回的JSON数据。例如,使用Google Custom Search API需要注册获取API密钥,然后发送HTTP请求,解析结果并展示。 还要注意引用中的内容。比如引用[2]提到登录后重定向到之前请求的页面,这可能和应用程序中的权限控制有关,但和当前问题关联不大。引用[5]提到创建Dialogflow代理,这可能和聊天机器人的搜索功能有关,但用户的问题更偏向于自定义搜索引擎的添加,可能需要简单提及集成到聊天机器人中的可能性。 用户可能需要分步骤的指导,包括浏览器端和应用程序端的不同方法。需要确保语言清晰,步骤准确。同时,生成的相关问题要符合用户可能进一步询问的方向,比如浏览器的具体步骤、API的使用方法、自定义搜索引擎的最佳实践等。 最后,检查是否有遗漏,比如移动端浏览器的处理,或者常见问题如URL格式错误导致搜索失败。确保回答覆盖主要平台,并提供示例帮助用户理解。</think>### 如何添加自定义搜索引擎 #### 在浏览器中添加自定义搜索引擎 1. **Chrome浏览器** - 打开设置 → 管理搜索引擎 → 添加新搜索引擎 - 格式示例:搜索URL为 `https://example.com/search?q=%s`,其中 `%s` 表示用户输入的查询词 - 设置关键词(如 `ex`),之后在地址栏输入 `ex [空格] 查询词` 即可触发该引擎[^2] 2. **Firefox浏览器** - 访问目标搜索引擎的网站,右键点击其搜索框 → “添加关键词” - 自定义名称和关键词,保存后可通过关键词调用 3. **Edge浏览器** - 设置 → 隐私、搜索和服务 → 地址栏和搜索 → 管理搜索引擎 - 添加包含 `%s` 占位符的URL模板 #### 在应用程序中集成自定义搜索引擎 1. **基于API的集成**(以Google Custom Search为例) - 注册Google Cloud账号并启用Custom Search JSON API[^5] - 获取API密钥和搜索引擎ID - 发送请求示例: ```python import requests api_key = "YOUR_KEY" cx = "SEARCH_ENGINE_ID" response = requests.get(f"https://www.googleapis.com/customsearch/v1?q={query}&key={api_key}&cx={cx}") ``` 2. **前端实现** ```html <form action="https://example.com/search" method="GET"> <input type="text" name="q" placeholder="Search..."> <button type="submit">Search</button> </form> ``` #### 最佳实践 - 验证URL格式:确保占位符 `%s` 正确嵌入目标搜索引擎的查询参数 - 权限控制:涉及API调用时需实现认证机制,如OAuth2.0[^2][^4] - 结果渲染:处理API返回的JSON数据并设计友好的展示界面[^3]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值