我收到了 Google 爬虫错误,应该怎么办?

一般指南

如果您在 Google 站长工具遇到爬虫错误,请查看以下指南。

  • 监控网站的性能和可用性,以排除您自己的 Web 服务器产生的任何错误。 您可以使用许多免费和付费服务:
  • 不要在 Cloudflare 控制面板中拦截 Google IP(您可以使用他们在此文)中提到的方法,验证 IP 是否属于 Google。阻止其范围内的 IP 将影响 Google 抓取您的网站。
  • 不要在 Cloudflare 控制面板中拦截美国。许多搜索引擎都位于美国,此设置可能会阻止他们抓取您的网站。
  • 请勿在 .htaccess、服务器配置、robots.txt 或 Web 应用程序中阻止 Google 的 user-agent。 Google 可能会使用各种 user-agent 来抓取您的网站。请查看 Google 在抓取网站时使用的常用 user-agent 列表。 进行修改时,您可以在 Google 网站站长工具中的 Health”部分下的 “Blocked URLs page”上测试您的 robots.txt 文件。
  • 请勿允许抓取 /cdn-cgi/ 目录下的文件。此路径由 Cloudflare 在内部使用,Google 在抓取时会遇到错误。

故障排除

常见错误的故障排除步骤如下:对于此处未提及的问题,请按照其他问题排查部分中的步骤操作,然后开立一个 技术支持工单

HTTP 4xx 错误

由于网页权限错误,Google 检测到我们被阻止抓取的网址数量显著增加。

HTTP 400 错误是用户在 Google 网站站长工具中看到的最常见错误类型。此类错误表示请求失败。Cloudflare 充当信使,并将这些错误从您的 web 服务器传递给 Google。 这些错误可能是由 Web 服务器上缺少页面或 HTML 中格式错误的链接之类的简单错误引起的。具体解决方案将取决于您实际的问题。确定并纠正问题后,Google 会再次尝试抓取您的网站,并自动清除错误。

HTTP 5xx 错误

500 范围中的 HTTP 错误表明 Cloudflare 或您的 Web 服务器出现内部错误。 遗憾的是,Google 网站站长并不提供关于这些问题的具体信息。 如果您的 Web 服务器出现 500 范围内的错误,那么将这些错误与 Cloudflare 可能产生的错误区分开来可能比较困难。最佳解决方案是监视 Web 服务器的健康状况,以帮助将任何中断的日期与错误日期相关联。

“下载页面所用时间”增加问题

如果您在启用 Cloudflare 后遇到页面下载时间增加的问题,请提交 Cloudflare 支持工单。工单中请包括以下过程在您的查询中生成的诊断输出。

  1. 登录您的 Google 网站站长工具账户,然后导航到受影响域名的“Health”部分。
  2.  单击左侧导航栏中的 Fetch as Google

Screen_Shot_2013-02-26_at_1.09.52_PM.png

3.在表单字段中以小写形式键入 cdn-cgi/trace,然后单击 FETCH

Screen_Shot_2013-06-19_at_12.35.49_PM.png

4.单击Fetch Status列下的Success

Screen_Shot_2013-06-19_at_5.28.20_PM.png

5.复制灰色区域中的所有文本并将其提交给 Cloudflare 客户支持

Screen_Shot_2013-06-19_at_12.33.02_PM.png

DNS 错误

在过去 24 小时内,Googlebot 在尝试检索您网站的 DNS 信息时遇到了一些错误。网站的 DNS 查询的总体错误率是百分比。

大多数 DNS 故障都将由浏览器适度处理,您的访问者不会受到影响。 进一步故障排除的步骤取决于您的 Cloudflare 服务的配置方式。 Cloudflare 可以通过 CNAME 或通过整个域名来启用。如果您通过主机提供商使用 Cloudflare,则可能正在使用 CNAME 模式。

要验证您正在使用的配置,请打开终端并执行以下命令。将 www.example.com 替换为您在 Cloudflare 注册的域名。

dig +short SOA www.example.com

如果从此命令获得的输出类似于下面的文本,则表示您正在使用 CNAME 设置。请继续前往 CNAME 部分。

example.com.cdn.cloudflare.net.

如果从此命令获得的输出类似于下面的文本,则表示您为整个域名启用了 Cloudflare。请继续前往 Delegation 部分。

josh.ns.cloudflare.com. dns.cloudflare.com.2013050901 10000 2400 604800 3600

如果您使用 CNAME:

在 CNAME 设置中,主机提供商主要负责您的 DNS 服务。为了调查 DNS 错误,需联系他们的技术支持团队。 向他们提供 Google 遇到 DNS 错误的日期以便调查。此外,您应该查看 Cloudflare System Stauts页面,并观察 Google 遇到错误之日是否有任何网络中断。

Full Setup(委托了整个域名)

在所有计划级别,Cloudflare 将为您的域提供至少两个权威域名服务器记录。浏览器和操作系统 API 可以适度处理所有这些域名服务器故障,而不会向访问者显示错误。如果 Google 经常向您报告 DNS 错误,请提交 Cloudflare 支持工单,并提供 Google 观察到错误的日期和时间。

其他故障排除

请按照以下步骤从您的 Google 网站站长工具仪表板中将爬网程序错误导出为 .csv 文件。向 Cloudflare 技术支持部门报告错误时,请包含此文件。

  1. 登录您的 Google 网站站长工具账户,然后导航到受影响域名的“Health”部分。
  2. 单击左侧导航中的Crawl Errors
  3. Screen_Shot_2013-06-19_at_1.42.54_PM.png

  4. 单击Download,将错误列表导出为 .csv 文件。
    Screen_Shot_2013-06-19_at_5.35.46_PM.png
  5. 将下载的 .csv 文件附加到 Cloudflare 支持工单
Not finding what you need?

95% of questions can be answered using the search tool. This is the quickest way to get a response.

由 Zendesk 提供技术支持