1) 在“配置 > 蜘蛛 > 抓取”下选择“抓取链接的 XML 站点地图”
要抓取 XML 站点地图中的 URL,您可以选择通过 robots.txt 自动发现页面(这需要“站点地图:https://www.example.com/sitemap.xml”条目),或提供 XML 的目标站点地图。
这意味着任何只能通过 XML 站点地图发现的新孤立 URL 都将被抓取。
2) 在“配置 > API 访问”下连接到 Google Analytics
您可以连接到 Google Analytics API 并在抓取过程中直接提取特定帐户、媒体资源、视图和细分的数据。要从自然搜索中查找孤立页面,请记住选择“自然流量”部分。
您可以设置要分析的日期范围(理想情况下至少为一个月),以及可以保留为默认值的指标和维度。如果您也有兴趣通过其他来源查找孤立页面,则可以将该细分调整为“所有用户”或“付费流量”。
如果您之前没有连接到 GA,请阅读我们的Google Analytics 集成指南。
3) 选择“抓取在 Google Analytics 中发现的新 URL”
此配置选项可在 Google Analytics 配置窗口(配置 > API 访问 > Google Analytics)的“常规”选项卡下找到。
如果未启用此选项,则只能在“孤立页面”报告中查看通过 Google Analytics 发现的新 URL。它们不会被添加到抓取队列中,可在用户界面中查看并显示在相应的选项卡和过滤器下。
4) 在“配置 > API 访问”下连接到 Google Search Console
您可以连接到 Search Analytics API 并在抓取过程中直接提取展示次数、点击次数、点击率和排名指标等数据。要查找在搜索中获得展示但未链接到内部的孤立页面,只需选择正确的属性。
您可以设置要分析的数据的日期范围,理想情况下至少是一个月,例如 Google Analytics。
如果您之前未连接到 GSC,请阅读我们的Google Search Console 集成指南。
5) 选择“抓取在 Google Search Console 中发现的新 URL”
此配置选项可在 Google Search Console 配置窗口(配置 > API 访问 > Google Search Console)的“常规”选项卡下找到。
与 Google Analytics 一样,如果未启用此选项,则通过 Google Search Console 发现的新 URL 将只能在“孤立页面”报告中查看。它们不会被添加到抓取队列中,可在用户界面中查看并显示在相应的选项卡和过滤器下。
6) 抓取网站
打开 SEO 蜘蛛,在网站中键入或复制以在“输入蜘蛛网址”框中进行抓取,然后点击“开始”。
您可以通过进度条和 API 选项卡监控 API 的进度并进行抓取。
该网站以及通过 XML 站点地图、Google Analytics 和 Search Console 发现的新 URL 随后将被抓取。等到爬网完成并达到 100%。
6) 单击“爬网分析 > 开始”以填充孤立 URL 过滤器
搜索引擎优化蜘蛛中的大多数过滤器都可以在爬行过程中实时查看。但是,“站点地图”、“分析”和“搜索控制台”选项卡下有三个相应的“孤立网址”过滤器,只能在抓取结束时查看。
他们需要发布“抓取分析”以填充数据(稍后会详细介绍)。右侧的“概览”窗格针对需要使用数据填充后爬网分析的过滤器显示“(需要爬网分析)”消息。例如,“站点地图”下有五个过滤器是必需的。
SEO Spider 只会在整个爬网完成后才知道 XML 站点地图中缺少哪些 URL,反之亦然。要填充这三个孤立 URL 过滤器,您只需单击一个按钮。
但是,如果您之前已经配置了“抓取分析”,您可能希望在“抓取分析 > 配置”下仔细检查是否勾选了“站点地图”、“分析”和“搜索控制台”。您还可以取消勾选其他也需要爬网后分析的项目,以加快此步骤。
爬网分析完成后,“分析”进度条将显示为 100%,过滤器将不再显示“(需要爬网分析)”消息。
它们还将填充孤立 URL 数据!
7) 在站点地图、分析和搜索控制台选项卡下分析“孤立 URL”过滤器
您现在可以浏览每个选项卡和相应的“孤立 URL”过滤器以查看找到的孤立页面。例如,在 Screaming Frog 网站上,有一些孤立的 URL 会出错并从 XML 站点地图重定向。
虽然这些页面并不存在,但它们是未链接到网站内部的孤立 URL。在此示例中,这些旧 URL 应该已从 XML 站点地图中删除。
孤立页面可以有来自其他孤立页面的内部链接。
从 Search Console 数据来看,网站上存在一些页面并以 200 状态代码响应,这些页面未链接到内部。其中一个是应该真正链接到内部的指南,而另一个是从我们的职业页面中删除的旧职位空缺,但仍然有效并获得有机印象和点击。
与上面的示例相同,也可以查看“分析”选项卡和“孤立 URL”过滤器。可以通过界面上的“导出”按钮导出每个选项卡和过滤器中的数据。
8) 通过“报告 > 孤立页面”导出组合的孤立 URL
最后,如果您希望导出所有发现的孤立页面的组合列表,请使用“孤立页面”报告。
每个孤立 URL 旁边都有一个“来源”列,它提供了发现的来源。这些在 Google Analytics 中缩写为“GA”,在 Google Search Console 中缩写为“GSC”,在 XML Sitemaps 中缩写为“Sitemaps”。
如果您在抓取中集成了 Google Analytics 和 Search Console,但没有勾选“抓取在 GA/GSC 中发现的新网址”配置,则此报告仍将包含这些网址的数据。它们只是不会被抓取,也不会出现在相应的选项卡和过滤器下。
最后提示!通过空白抓取深度识别内部选项卡中的孤立页面
“内部”选项卡包含在抓取中找到的每个 URL,包括孤立 URL。要识别哪些 URL 是孤立页面,请过滤空白的“爬网深度”。
爬行期间未通过内部链接自然发现的 URL 将不具有“爬行深度”。