google对flash的索引

最新推荐文章于 2025-12-17 09:22:10 发布

最新推荐文章于 2025-12-17 09:22:10 发布 · 121 阅读

文章标签：

博主尝试使用Joomla搭建社科类下载站点，并提交网站地图至Google Webmaster。然而，尽管Google已抓取站点，但并未将其索引。分析后发现，由于豆丁网已将相似内容以Flash形式提供并被Google索引，导致新站点内容被认为是重复内容。

　　闲来没事，又一直想搞个社科类下载站。就用joomla 快速搭这个社科下载，手头只有著名的万册图书，包装包装，先用上，实不足为知者道。

　　弄了一半，就上google webmaster 提交sitemap。不久抓取成功，本以为索引进搜索引擎，不过1、2天的事。认为理所当然，也就放一边了。今天上去一看，切！索引数目为零，这都过了4、5天了。

　　马上想到我的资源太旧了，不足以引起google兴趣。但是描述文字是在书里随机抽取的，google不可能见过呀，怎么把这些文字视为无效呢。极有可能是google图书搜索已经把这些书的内容全部索引了，导致这些网页文字成废物。就以被亵渎的鲁迅这本书为样本，上google 图书搜索搜索一看，没有呀，根本没有预览的。

　　那问题在哪？难道是别的网站已将这些书转化成网页了，不会吧。google一下被亵渎的鲁迅，一下就看到豆丁网，我知道坏事了。豆丁网是scribd 的中国克隆版，用flash来提供在线文档的，google又可对flash索引，那这书的内容google还不早知道，从而将社科下载上的网页视为copy。

　　从这个网页快照，可见一斑，书的第一页作为flash流的描述，但我抽取页面是随机的。还是以被亵渎的鲁迅为例，再多google几次，发现此书1-7页（下载一个看看就知道）的内容都作为豆丁网这个flash的描述，你搜索这七页任何一句，都可见答案在豆丁网这个flash上，此书8页以后的就搜不到了。看来文档在线化，还是有搞头的，起码，在原创内容上就可批量转换。

　　在社科下载上，被亵渎的鲁迅用书的第11页来描述，google没见过，却不索引，不解的狠。并且，其他电子书，在抽取网页描述时，我也是在书的10页以后才开始，这些个内容，google也弃之如草芥，实是郁闷。

　　哪位达人大哥知道答案，望不吝赐教。