当你在 Ahrefs 创建一个新的项目时,配置site audit站点扫描,你可能会收到一些错误消息,提示爬虫(AhrefsBot 和 AhrefsSiteAudit bot)无法爬取你的目标网站,或者是其他的各种问题。筋斗云SEO服务在SEO优化中经常会使用到Ahrefs扫描来作为补充,以下是我们常见会遇到的问题,希望给大家一些帮助:
1. Robots.txt 规则禁止爬取
问题描述:
如果你看到“Robots.txt 规则禁止爬取”的错误消息,可能是你的 robots.txt 文件在阻止 Ahrefs 爬取你的网站。
解决方法:
使用 Ahrefs 的 robots.txt 检查器 (https://ahrefs.com/robot/site-audit) 检查你的 robots.txt 文件,确保没有对 AhrefsSiteAudit 或 AhrefsBot 的禁止规则。
如果你是Shopify,建议手动修改 robots.txt.liquid
在 robots.txt 文件中添加以下内容以允许 Ahrefs 爬虫访问:
User-agent: AhrefsSiteAudit
Allow: /
User-agent: AhrefsBot
Allow: /
2. IP 被阻止/获取 robots.txt 时间过长/无法连接到服务器
问题描述:
如果看到“IP 被阻止”、“获取 robots.txt 时间过长”或“无法连接到服务器”等错误信息,则可能是你的服务器或托管服务提供商阻止了 Ahrefs 的访问。
解决方法:
将 Ahrefs 的 IP 地址添加到服务器的白名单中。 你可以在此处找到 Ahrefs 的 IP 地址列表:https://help.ahrefs.com/about-ahrefs/what-is-the-list-of-your-current-ip-ranges
联系你的托管服务提供商,确认是否他们在阻止 Ahrefs 的访问,并请求他们解除封锁。
检查是否有任何插件(如 Incapsula)阻止了 Ahrefs 的访问,并禁用或配置这些插件。
3. HTTP 服务器返回错误 403:“禁止访问”
问题描述:
此错误消息通常意味着 Ahrefs 被你的网站防火墙或插件阻止。
解决方法:
将 Ahrefs 的 IP 地址和 user-agent(AhrefsSiteAudit 和/或 AhrefsBot)添加到你的网站防火墙或插件的白名单中。
4. 错误 406 Not Acceptable:防火墙
问题描述:
此错误消息可能是由于你的网络服务器配置、托管服务提供商管理的防火墙、CDN 的保护等原因导致的。一些已知的例子包括:ModSecurity、Sucuri、Cloudflare。
解决方法:
错误消息可能会提供一些可能原因的提示,仔细阅读错误信息以获取更多线索。
联系你的站长、托管公司或 CDN,要求他们解封 Ahrefs 的 bot。
5. 其他问题
如果以上方法都无法解决问题,你可以尝试以下操作:
确保你的网站可以正常访问,并且没有出现服务器错误或其他技术问题。
清除浏览器缓存和 cookies,然后重试。
联系 Ahrefs 的客服团队寻求帮助。
希望以上信息能够帮助你解决 Ahrefs 扫描出错的问题。
Ahrefs Bot的UA、IP范围以及API
截止2024年10月23日,Ahrefs有两种爬虫:
AhrefsBot:AhrefsBot 是 Ahrefs 的网络爬虫,就像 Google 的 Googlebot 一样,负责日常的抓取。它的主要工作是抓取和索引网页内容,以便 Ahrefs 可以为其用户提供 SEO 分析数据。
AhrefsSiteAudit: 是一个为 Ahrefs 网站审计工具提供动力的网络爬虫。Ahrefs 用户可以使用网站审计来分析网站,找到技术 SEO 和页面 SEO 问题。这个机器人可以抓取任何网站,除非不允许,并防止网站服务器上过多的负载限制抓取1请求每2秒默认。如果你是一个网站所有者,你可以以更高的速度抓取你自己的网站,并且允许 AhrefsSiteAudcrawler 忽略 robots.txt。为此,您需要在站点审计工具中验证所有权。
具体的差别可以看:
关于Ahrefs爬虫的FAQs
1.Ahrefs爬虫会遵守 robots.txt 文件吗?
是的。默认情况下。只有经过验证的所有者才能允许 AhrefsSiteAudit 爬虫在其网站上违反 robots.txt。
2.AhrefsSiteAudit 机器人在我的网站上做什么?
如果您在服务器日志中看到 AhrefsSiteAudit,这意味着有人使用 Ahrefs 的站点审核工具对您的网站进行了分析。该机器人会抓取网站并跟踪其内部链接从一个 URL 到另一个 URL。它还检查网站资源,例如 CSS 文件、JS 文件和图像。
3.Ahrefs爬虫会不会影响GA数据?
AhrefsSiteAudit 抓取工具不会向您的 Google Analytics 4 流量添加数字。