Ahrefs扫描出错:常见的5个问题和如何处理

Linus
Linus
发布于 2024-10-24 / 42 阅读
1

当你在 Ahrefs 创建一个新的项目时,配置site audit站点扫描,你可能会收到一些错误消息,提示爬虫(AhrefsBot 和 AhrefsSiteAudit bot)无法爬取你的目标网站,或者是其他的各种问题。筋斗云SEO服务在SEO优化中经常会使用到Ahrefs扫描来作为补充,以下是我们常见会遇到的问题,希望给大家一些帮助:

1. Robots.txt 规则禁止爬取

问题描述:

如果你看到“Robots.txt 规则禁止爬取”的错误消息,可能是你的 robots.txt 文件在阻止 Ahrefs 爬取你的网站。

解决方法:

  • 使用 Ahrefs 的 robots.txt 检查器 (https://ahrefs.com/robot/site-audit) 检查你的 robots.txt 文件,确保没有对 AhrefsSiteAudit 或 AhrefsBot 的禁止规则。

  • 如果你是Shopify,建议手动修改 robots.txt.liquid

  • 在 robots.txt 文件中添加以下内容以允许 Ahrefs 爬虫访问:

User-agent: AhrefsSiteAudit
Allow: /
User-agent: AhrefsBot
Allow: /

2. IP 被阻止/获取 robots.txt 时间过长/无法连接到服务器

问题描述:

如果看到“IP 被阻止”、“获取 robots.txt 时间过长”或“无法连接到服务器”等错误信息,则可能是你的服务器或托管服务提供商阻止了 Ahrefs 的访问。

解决方法:

  • 将 Ahrefs 的 IP 地址添加到服务器的白名单中。 你可以在此处找到 Ahrefs 的 IP 地址列表:https://help.ahrefs.com/about-ahrefs/what-is-the-list-of-your-current-ip-ranges

  • 联系你的托管服务提供商,确认是否他们在阻止 Ahrefs 的访问,并请求他们解除封锁。

  • 检查是否有任何插件(如 Incapsula)阻止了 Ahrefs 的访问,并禁用或配置这些插件。

3. HTTP 服务器返回错误 403:“禁止访问”

问题描述:

此错误消息通常意味着 Ahrefs 被你的网站防火墙或插件阻止。

解决方法:

  • 将 Ahrefs 的 IP 地址和 user-agent(AhrefsSiteAudit 和/或 AhrefsBot)添加到你的网站防火墙或插件的白名单中。

4. 错误 406 Not Acceptable:防火墙

问题描述:

此错误消息可能是由于你的网络服务器配置、托管服务提供商管理的防火墙、CDN 的保护等原因导致的。一些已知的例子包括:ModSecurity、Sucuri、Cloudflare。

解决方法:

  • 错误消息可能会提供一些可能原因的提示,仔细阅读错误信息以获取更多线索。

  • 联系你的站长、托管公司或 CDN,要求他们解封 Ahrefs 的 bot。

5. 其他问题

如果以上方法都无法解决问题,你可以尝试以下操作:

  • 确保你的网站可以正常访问,并且没有出现服务器错误或其他技术问题。

  • 清除浏览器缓存和 cookies,然后重试。

  • 联系 Ahrefs 的客服团队寻求帮助。

希望以上信息能够帮助你解决 Ahrefs 扫描出错的问题。

Ahrefs Bot的UA、IP范围以及API

截止2024年10月23日,Ahrefs有两种爬虫:

  • AhrefsBot:AhrefsBot 是 Ahrefs 的网络爬虫,就像 Google 的 Googlebot 一样,负责日常的抓取。它的主要工作是抓取和索引网页内容,以便 Ahrefs 可以为其用户提供 SEO 分析数据。

  • AhrefsSiteAudit: 是一个为 Ahrefs 网站审计工具提供动力的网络爬虫。Ahrefs 用户可以使用网站审计来分析网站,找到技术 SEO 和页面 SEO 问题。这个机器人可以抓取任何网站,除非不允许,并防止网站服务器上过多的负载限制抓取1请求每2秒默认。如果你是一个网站所有者,你可以以更高的速度抓取你自己的网站,并且允许 AhrefsSiteAudcrawler 忽略 robots.txt。为此,您需要在站点审计工具中验证所有权。

具体的差别可以看:

爬虫名称

AhrefsBot

AhrefsSiteAudit

版本

7

6.1

爬虫类型

Good (Identifies itself, has an official moniker)
好(表明自己的身份,有官方绰号)

Good (Identifies itself, has an official moniker)

类别

市场调研(Marketing)

SEO

遵守 robots.txt

遵守

默认遵守(可配置不遵守)

遵守抓取延迟

遵守

默认遵守(可配置不遵守)

User Agrent字符串

Mozilla/5.0 (compatible; AhrefsBot/7.0; +http://ahrefs.com/robot/)

桌面端: Mozilla/5.0 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/site-audit)

移动端: Mozilla/5.0 (Linux; Android 13) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.5359.128 Mobile Safari/537.36 (compatible; AhrefsSiteAudit/6.1; +http://ahrefs.com/robot/site-audit)

DNS反查域名后缀

ahrefs.com

ahrefs.com

IP地址范围

Current list,API documentation

Current listAPI documentation

关于Ahrefs爬虫的FAQs

1.Ahrefs爬虫会遵守 robots.txt 文件吗?

是的。默认情况下。只有经过验证的所有者才能允许 AhrefsSiteAudit 爬虫在其网站上违反 robots.txt。

2.AhrefsSiteAudit 机器人在我的网站上做什么?

如果您在服务器日志中看到 AhrefsSiteAudit,这意味着有人使用 Ahrefs 的站点审核工具对您的网站进行了分析。该机器人会抓取网站并跟踪其内部链接从一个 URL 到另一个 URL。它还检查网站资源,例如 CSS 文件、JS 文件和图像

3.Ahrefs爬虫会不会影响GA数据?

AhrefsSiteAudit 抓取工具不会向您的 Google Analytics 4 流量添加数字。