站点地图详解

本文详细介绍了站点地图的查看方法、制作需求,以及XML、RSS、TXT等不同格式的站点地图规范,强调了站点地图在SEO中的作用,特别是对于大型、新站或富媒体内容网站的重要性。还提醒注意URL的一致性、避免会话ID、使用hreflang注解以及正确处理移动和桌面版本的网址。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

怎样查看站点地图?

输入"主域名/sitemap.xml"就可以查看。(有些网站被修改了站点地图地址用这种方法查看不了。)

什么情况下需要制作站点地图?

  • 网站规模很大。在这种情况下,Google 网页抓取工具更有可能在抓取时漏掉部分新网页或最近更新的网页。
  • 网站有大量内容页归档,这些内容页之间互不关联或缺少有效链接。如果您的网站网页没有自然地相互引用,那么您可以在站点地图中列出这些网页,确保 Google 不会漏掉其中某些网页。
  • 网站是新网站且指向该网站的外部链接不多。Googlebot 及其他网页抓取工具是通过跟踪网页之间的链接来抓取网页的。因此,如果没有其他网站链接到您的网页,Google 可能不会发现您的网页。
  • 您的网站包含大量富媒体内容(视频、图片)或显示在 Google 新闻中。如果提供了站点地图,在适当情况下,Google 能将站点地图中的其他信息纳入搜索范围。

个人建议为了加快收录,任何网站都制作站点地图并用谷歌工具提交。

谷歌站点地图的格式

任何格式的站点地图,在未压缩时必须≤50MB,网址个数≤5万个。如果超过了,就要拆分成多个较小的站点地图。

格式1:XML

官方文档:sitemaps.org - Protocol

具体解释:

1.站点地图中的所有数据值都必须进行实体转义。文件本身必须是UTF-8编码的。

开头:<?xml version="1.0" encoding="UTF-8"?>

2.以<urlset>开始标签开始,以</urlset>结束标签结束。在<urlset>里写上在<urlset>标记中指定协议标准:xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"。

(有些网站写了比较全面的协议标准:xmlns="http://www.sitemaps.org/schemas/sitemap/0.9" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.sitemaps.org/schemas/sitemap/0.9 http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd")

3.为每个url包含一个<url>条目,作为父XML标记。
为每个<url>父标记包含<loc>子项。

下面是只有1个url的站点地图示例:

<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      <loc>http://www.example.com/</loc>

      <lastmod>2005-01-01</lastmod>

      <changefreq>monthly</changefreq>

      <priority>0.8</priority>

   </url>

</urlset> 

如果有多个url,就每个url用包含到<url>与</url>里,记得不能多于5万个url。

4.标签属性的解释:

<urlset>,必须,封装文件并引用当前协议标准。

<url>,必须,每个URL条目的父标记。其余标记是此标记的子项。

<loc>,必须,页面的URL。如果web服务器需要,此URL必须以协议(如http)开头,并以斜杠结尾。此值必须少于2048个字符。

<lastmod>,可选,上次修改文件的日期。此日期应为W3C日期时间格式。如果需要,此格式允许您省略时间部分,并使用YYYY-MM-DD。
请注意,此标记与If-Modified分开,因为服务器可以返回(304)头,搜索引擎可能会以不同方式使用来自这两个源的信息。

<changefreq>,可选,页面可能更改的频率。此值为搜索引擎提供一般信息,可能与搜索引擎抓取页面的频率不完全相关。有效值为:

  • always
  • hourly
  • daily
  • weekly
  • monthly
  • yearly
  • never

这些值并不影响搜索引擎的爬取频率,只是对谷歌的提示。个人认为用weekly足够。

<priority>,可选,此URL相对于站点上其他URL的优先级。有效值的范围为0.0到1.0。此值不影响您的页面与其他网站上的页面进行比较的方式,它只让搜索引擎知道您认为哪些页面对爬虫最重要。页面的默认优先级为0.5。请注意,您分配给页面的优先级不太可能影响URL在搜索引擎结果页面中的位置。搜索引擎在同一站点上的URL之间进行选择时可能会使用此信息,因此您可以使用此标记来增加最重要的页面出现在搜索索引中的可能性。
另外,请注意,为站点上的所有URL分配高优先级可能对您没有帮助。由于优先级是相对的,因此它仅用于在站点上的URL之间进行选择。

5.url里如果有字符,要使用转义字符。

示例:

<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <url>

      <loc>http://www.example.com/</loc>

      <lastmod>2005-01-01</lastmod>

      <changefreq>monthly</changefreq>

      <priority>0.8</priority>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=12&amp;desc=vacation_hawaii</loc>

      <changefreq>weekly</changefreq>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=73&amp;desc=vacation_new_zealand</loc>

      <lastmod>2004-12-23</lastmod>

      <changefreq>weekly</changefreq>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=74&amp;desc=vacation_newfoundland</loc>

      <lastmod>2004-12-23T18:00:15+00:00</lastmod>

      <priority>0.3</priority>

   </url>

   <url>

      <loc>http://www.example.com/catalog?item=83&amp;desc=vacation_usa</loc>

      <lastmod>2004-11-23</lastmod>

   </url>

</urlset>

 6.有多个站点地图时,需要在站点地图索引文件中列出所有站点地图。

站点地图索引文件不能列出超过50000个站点地图,并且不能超过50MB,并且可以进行压缩。可以有多个站点地图索引文件。站点地图索引文件的XML格式与站点地图文件的XML格式非常相似。

  • 以<sitemapindex>开始标记开始,以</sitemapindex>结束标记结束。
  • 为每个站点地图包含一个<sitemap>条目作为父XML标记。
  • 为每个<sitemap>父标记包含<loc>子项。

下面是有2个站点地图索引的示例:

<?xml version="1.0" encoding="UTF-8"?>

<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

   <sitemap>

      <loc>http://www.example.com/sitemap1.xml.gz</loc>

      <lastmod>2004-10-01T18:23:17+00:00</lastmod>

   </sitemap>

   <sitemap>

      <loc>http://www.example.com/sitemap2.xml.gz</loc>

      <lastmod>2005-01-01</lastmod>

   </sitemap>

</sitemapindex>

其中,属性<sitemapindex>、<sitemap>、<loc>必须,<lastmod>可选。

格式2:RSS、mRSS 和 Atom 1.0

如果您的博客有 RSS 或 Atom Feed,那么您可以将该 Feed 的网址作为站点地图提交。 大多数博客软件都能为您创建 Feed,但请注意,此类 Feed 只会提供关于近期网址的信息。

Google 支持 RSS 2.0 Feed 和 Atom 1.0 Feed。
您可以使用 mRSS(媒体 RSS)Feed 向 Google 提供有关您网站上视频内容的详情。

格式3:TXT

  • 文本文件每行必须有一个URL。URL不能包含嵌入的新行。
  • 您必须完全指定URL,包括http。
  • 每个文本文件最多可包含50000个URL,且不得大于50MB(52428800字节)。如果您的站点包含50000多个URL,则可以将列表分隔为多个文本文件,并分别添加每个文本文件。
  • 文本文件必须使用UTF-8编码。您可以在保存文件时指定此选项(例如,在记事本中,此选项列在“另存为”对话框的“编码”菜单中)。
  • 文本文件不应包含URL列表以外的任何信息。
  • 文本文件不应包含页眉或页脚信息。
  • 如果您愿意,您可以使用gzip压缩站点地图文本文件以减少带宽需求。
  • 您可以根据需要为文本文件命名。请检查以确保您的URL符合适用于URI的RFC-3986标准,适用于IRIs的RFC-3987标准。您应该将文本文件上载到您希望搜索引擎爬网的最高级别目录,并确保您没有在文本文件中列出位于更高级别目录中的URL。

示例:

 站点地图注意事项

  • 使用一致且完全限定的网址。Google 会严格按照您列出的网址进行抓取。 例如,如果网站位于 https://www.example.com/,请勿将网址指定为 https://example.com/(缺少 www)或 ./mypage.html(相对网址)。
  • 站点地图可以发布在网站上的任何位置,但是站点地图只影响父级目录中的下级目录。因此,如果站点地图发布在网站的根目录下,则可以影响网站上的所有文件,所以我们建议将站点地图发布在此目录下。
  • 请勿在站点地图中包含网址的会话 ID。这样可以减少对这些网址的重复抓取。
  • 使用 hreflang 注解将其他语言版本的网址告知 Google。
  • 您必须对站点地图文件进行 UTF-8 编码,并且适当地对网址进行转义。
  • 将较大的站点地图拆分成数个较小的站点地图:站点地图的网址数量上限为 50000 个,且压缩前的大小上限为 50MB。使用站点地图索引文件列出所有单个站点地图,然后将这个文件提交给 Google,而不是分别提交各个站点地图。
  • 在站点地图中仅列出规范网址。如果您的网页有两个版本,则仅在站点地图中列出您希望在搜索结果中显示的版本。如果您有两个版本的网站(例如,www 和非 www),请确定您的首选网站,并将站点地图放入其中,然后在另一个网站上添加 rel=canonical 或重定向。
  • 如果您为网页的移动版和桌面版提供了不同的网址,建议在站点地图中仅指向一个版本。但是,如果您认为需要同时指向这两个网址,请为网址添加注解,指明桌面版和移动版分别是哪个。
  • 使用站点地图扩展功能指向视频、图片和新闻等其他媒体类型。
  • 如果您针对不同语言或区域提供了其他版本的网页,可以在站点地图或 HTML 标记中使用 hreflang 指明其他版本的网址。
  • 站点地图中的网址顺序不影响谷歌抓取。
  • 非字母数字字符和非拉丁字符。 我们要求您的站点地图文件使用 UTF-8 编码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值