根据Google Webmaster Tools的说明文当,如果要从Google的搜索结果中删除网页内容,必须至少满足三个条件中的一个:
- 访问该页面返回404或者410错误。必须是HTTP Header里包含错误,而不是返回自定义错误页面。
- 用robots.txt禁止对特定页面的索引。
- 在HTML页面中是用meta tag noindex。
Google说满足该条件之后,Google的机器人在下次爬网的时候,会从索引中删除该页面。可是有时候好像即使满足上面条件之一,页面也并不能完全从搜索结果中删除。这时可以用Google Webmaster Tools提交一条删除链接申请。该申请如果被批准,链接基本能从搜索结果中删除了,但该申请也有可能被拒绝。不知道Google在批准或拒绝申请时,是人工还是机器。
上面的方法对特定的页面或文件有效,但对象WordPress首页这样的动态页面效果不大。因为这个页面不大可能返回404或410,如果只想移出某一篇blog,也不大可能加noindex的meta tag,同样如果用robots.txt,所有blog都不会被索引。我试着提交了一个移出链接申请,结果被拒绝了。最终我选择使用robots.txt暂时block全站,这样google检索之后,在搜索结果中虽然还能看到我的blog,但缓存的内容已经没有了。问题是我修改robots.txt恢复全站索引之后,内容好像有回来了。
Google说页面的内容必须有改变才会重新索引,加了这篇blog之后,看看索引和缓存会不会更新。