用Google挖掘数据

-------------------------------------------------------------------------------- 看到了一篇digg推荐的文章,又看到有人用Google挖出很厉害的东西,所以记录一下Google搜索tips,其中有以前知道的,有以前知道后来不用给忘掉的,也有新近学到并用上的,还有偶尔用一下的。 “关键词”,用引号加上就是原样出现在结果中,不再分词。 +关键词,表示一定要有这个词出现;有些特别简单流行的词Google会自动略去--当然在结果页上会提醒,也可以用+号强制要求这个词。 -关键词,表示不含有这个词。 ~关键词,同义词,似乎只对英文有效? 关键词 OR 关键词,或者关系。没有AND,因为Google缺省就这样使用所有关键词。 site:URL,把结果限制在此网站内。URL不一定是一个完整的域名,也可以是cn/edu这样的顶级域名。 related:URL,和该页、站相关的,不清楚其中的算法。 link:URL,链接了该页、站的。有时候看看自己的站被谁加了链接了。 phone:name,查电话的。这个用法告诉我们,如果不是开公司,不要随便在网上留电话。 filetype:ft,限定文件类型。如果用index of再加上这个,可以查些FTP出来。 daterange:儒略历写法的日期,指定日期,原文中说2452384是个例子,可Google一下这种日期格式说是5位数字(两位年份,三位该天是当年的第几天),可能前者是对的。 这个功能还是进高级搜索用吧。 找了个详细的说明,原来5位数字是编程专用的,7位的是从公元前4713年1月1日算起的日数(也可以有时间,放在小数点后面),以7980年为周期循环。还找到一页可以做这种公历-儒略历日期转换的网站。 又有说法说是用20060220这种写法,似乎也不管用 。 inurl:关键词,要求该关键词在URL中,仅指紧跟着的那个词。 allinurl:关键词,要求所有关键词都在URL中。 intitle:关键词,在标题中。 allintitle:关键词,全部在标题中。 allinlinks:关键词,在链接中。 intext:关键词,在正文中。 allintext:关键词,全部在正文中。 1..100,数字范围,上面说的Daterange似乎可以用-来表示范围。 词 * 词,表示这两个关键词之间可以有1到多个词隔开。如果是数字,就是乘号的计算器搜索功能了。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值