闲来没事,又一直想搞个社科类下载站。就用joomla 快速搭这个社科下载 ,手头只有著名的万册图书,包装包装,先用上,实不足为知者道。
弄了一半,就上google webmaster 提交sitemap。不久抓取成功,本以为索引进搜索引擎,不过1、2天的事。认为理所当然,也就放一边了。今天上去一看,切!索引数目为零,这都过了4、5天了。
马上想到我的资源太旧了,不足以引起google兴趣。但是描述文字是在书里随机抽取的,google不可能见过呀,怎么把这些文字视为无效呢。极有可能是google图书搜索已经把这些书的内容全部索引了,导致这些网页文字成废物。就以被亵渎的鲁迅 这本书为样本,上google 图书搜索 搜索一看,没有呀,根本没有预览的。
那问题在哪?难道是别的网站已将这些书转化成网页了,不会吧。google一下被亵渎的鲁迅,一下就看到豆丁网 ,我知道坏事了。豆丁网是scribd 的中国克隆版,用flash来提供在线文档的,google又可对flash索引,那这书的内容google还不早知道,从而将社科下载上的网页视为copy。
从这个网页快照 ,可见一斑,书的第一页作为flash流的描述,但我抽取页面是随机的。还是以被亵渎的鲁迅为例,再多google几次,发现此书1-7页(下载 一个看看就知道)的内容都作为豆丁网这个flash的描述,你搜索这七页任何一句,都可见答案在豆丁网这个flash上,此书8页以后的就搜不到了。看来文档在线化,还是有搞头的,起码,在原创内容上就可批量转换。
在社科下载上,被亵渎的鲁迅用书的第11页来描述,google没见过,却不索引,不解的狠。并且,其他电子书,在抽取 网页描述 时,我也是在书的10页以后才开始,这些个内容,google也弃之如草芥,实是郁闷。
哪位达人大哥知道答案,望不吝赐教。
博主尝试使用Joomla搭建社科类下载站点,并提交网站地图至Google Webmaster。然而,尽管Google已抓取站点,但并未将其索引。分析后发现,由于豆丁网已将相似内容以Flash形式提供并被Google索引,导致新站点内容被认为是重复内容。
236

被折叠的 条评论
为什么被折叠?



