Sitemap协议用于告知搜索引擎该站点允许抓取的有效页面,在最简单的实现下,它是一个由页面URL及其附加属性(如修改时间,页面重要程度等)组成的XML文件。使用sitemap协议只能为搜索引擎抓取提供更好的支持,但并不能保证搜索引擎一定会按协议设置的数据抓取。另外,sitemap协议还允许例如RSS、纯文本等格式的形式,在本文中我们只使用XML格式。
Sitemap协议规定XML文件需要满足实体转义且以UTF-8作为编码,另外还需要满足以下条件:
- 必须以
<urlset>开始并以</urlset>结束(XML文档声明除外),且必须声明协议标准(例如http://www.sitemaps.org/schemas/sitemap/0.9); - 每个URL使用一个
<url>标签表示; - 每个
<url>标签中必须有一个<loc>子标签; - sitemap文件最多只能支持50,000个链接且该文件大小必须保持在50MB以下(为了更快传输,sitemap支持使用gzip进行压缩)。
下面是一个简单的sitemap文件示例:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>http://www.example.com/</loc>
<lastmod>2020-12-15</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>

Sitemap协议是指导搜索引擎抓取网站页面的XML文件,包含URL及其属性。文章介绍了XML文件的规范,如实体转义、sitemap索引文件的创建,以及多站点支持。虽然使用Sitemap不能保证被抓取,但能提高抓取效率。同时,讨论了不同URL变更频率的表示,并提醒了对谷歌搜索引擎的特别注意事项。
最低0.47元/天 解锁文章
1418

被折叠的 条评论
为什么被折叠?



