Google 搜索引擎爬虫索引网站的过程
一般来说,Google爬虫会先查看网站根目录的robots.txt 文件,由此来决定爬行哪些目录,之后才开始抓取robots.txt中允许的页面,最后才顺着当前页面的链接爬行到其他页面。令人咋舌的是,搜索引擎爬虫评价某个页面的因素竟然有200个之多,而“相关性”则是其中的一个重要因素。
关于PageRank
Dan 说,PageRank 在Google 索引结果的排名中仍然具有非常重要的作用。需要注意的是,这里所说的PageRank 并非Google 工具条上看到的PR 值,而是指Google 内部使用的PageRank。