1) 添加自定义搜索过滤器
单击顶级菜单中的“配置 > 自定义 > 搜索”以打开自定义搜索配置。
然后单击“添加”(在右下角)以设置自定义搜索过滤器。
将出现自定义搜索过滤器。您最多可以在爬网中添加 100 个单独的过滤器。
2) 输入您的搜索
现在在“输入搜索查询”框中输入您的搜索并调整每个搜索过滤器选项。
从左到右,您可以命名搜索过滤器,选择“包含”或“不包含”,选择“文本”或“正则表达式”,输入您的搜索查询 – 并选择执行搜索的位置(HTML、页面文本、一个元素,或 XPath 等)。
上面的示例显示了在任何页面的文本中搜索“缺货”,以及搜索在页面的 HTML head 元素中不包含 Google 跟踪代码管理器跟踪代码的任何页面。
设置过滤器后,您可以单击“确定”并运行爬网来执行搜索。
3) 抓取网站
在“输入蜘蛛网址”框中键入或复制您要抓取的网站,然后点击“开始”。
等到爬网完成并达到 100%,或者在自定义搜索选项卡过滤器填充时实时观看。
4) 在自定义搜索选项卡和过滤器中查看数据
单击“自定义搜索”选项卡以实时查看自定义搜索的结果。默认情况下,来自所有搜索的数据一起显示在选项卡中,但过滤器可用于细化数据以仅显示每个单独的过滤器。
“包含”过滤器将显示搜索出现的次数,而“不包含”搜索将返回“包含”或“不包含”。
在此搜索中,有 2 页带有“缺货”文本,每页只包含一次该词——而在 10 页中的任何一页上都没有找到 GTM 代码。
这些数字也可以在右侧的“概览”窗格中看到,该窗格实时更新过滤器计数。
5) 出口
单击“导出”按钮导出自定义搜索数据,该按钮与过滤器和当前视图一起使用。
您还可以通过“批量导出”>“自定义搜索”>“过滤器 X 链接”将“链接”(链接的源页面)导出到自定义搜索过滤器。
高级搜索过滤器选项
通过将过滤器组合在一起并调整搜索过滤器配置,自定义搜索可以非常强大。特别是,使用正则表达式并选择执行搜索的位置。
区分大小写
如果您需要执行区分大小写的搜索,在搜索“文本”时,您可以单击框右侧的箭头以展开文本区域并选择“区分大小写”。
‘Regex’ 默认情况下区分大小写,以使其不区分大小写,在单词前使用 (?i)。例如 –
(?i) 优化
将匹配“优化”和“优化”,甚至“优化”。
在搜索品牌名称的拼写错误或首字母缩略词等时,区分大小写特别有用。
精确和多词
您可以选择使用常规文本进行搜索,或者对于更高级的用途,您可以切换到正则表达式。
例如,使用正则表达式,您可以使用以下内容匹配精确的单词。
bwordb
这将匹配特定的单词(在本例中为“单词”),因为 b 匹配单词边界。
这在搜索可以是其他词的单词或短语时非常有用,例如“pr”(将出现在我们网站上的“促销”、预渲染等中!)。
不使用单词边界,“pr”在我们的数字公关页面上出现了 12 次。对于精确的、区分大小写的匹配,它实际上是 0。
您还可以在搜索中将单词组合在一起。例如,如果您想查找包含“自然”、“有机”和“免费”等词的任何页面,您可以使用管道在单个过滤器中组合词。
bnaturalb|borganicb|bfreeb
这将计算每个词的每个实例,例如,我们的“搜索引擎优化”页面有 3 次“有机”和“自然”和“免费”一次,总共 5 次。
您可以单击标题以按出现次数排序,如示例中所示。
组合搜索
您可以组合过滤器并同时查看它们。因此,如果您想搜索包含某个单词但不包含其他单词的任何页面,请使用多个过滤器并在自定义搜索选项卡中一起查看。
在此示例中,您可以看到没有同时使用单词“crawler”和“best”的情况。这是合适的!
搜索
自定义搜索将根据您的呈现模式检查原始 HTML 或呈现的 HTML 。默认情况下,它将检查原始 HTML,但如果您已配置 JavaScript 呈现模式,它将检查呈现的 HTML。
然后,您可以精确优化执行自定义搜索的位置。
这 7 个可用选项可让您控制搜索位置 –
- HTML – 网页的完整 HTML。
- 页面文本– 网页文本,不包括任何 HTML。
- 无锚页面文本– 网页文本,不包括任何 HTML 或 HTML 锚标签(也称为 A 元素)中包含的任何文本。这在搜索也包含在菜单内链接文本中的单词时会很有帮助,这可能会导致每个页面都被标记为包含搜索内容。
- HTML标题 – 网页的 HTML 标题。
- HTML正文 – 网页的 HTML 正文,可以包含 HTML 和页面文本。
- XPath – 您可以提供 XPath 来指定执行搜索的 HTML 中的位置。例如,如果您只想针对 h3 标题中包含的文本运行搜索,您可以提供 //h3。
- 内容区域– 您可以指定用于字数统计、近似重复内容分析以及拼写和语法检查的内容区域 – 也可以选择用于自定义搜索。默认情况下,这包括包含在正文 HTML 元素中的文本,不包括导航和页脚元素以关注页面的主要内容。根据内容区域指南,可以排除和包含 HTML 元素、类和 ID 。
选择搜索位置通常非常有用。一个很好的例子是在我们自己的网站上发现我们将“Screaming Frog”拼错为“Screaming Frog”而没有大写“F”的地方。
使用“页面文本”运行区分大小写的搜索会在我们的断开链接博客文章中返回 7 次。
但是,在检查页面时,拼写错误位于博客文章的“评论”部分,而不是在主要博客正文中。
要从自定义搜索中排除此评论部分,您可以在浏览器中右键单击并“查看源代码”并在 HTML 中搜索相应的“评论”部分。
这显示了“评论”的 HTML ID,可用于排除。
然后可以在“配置 > 内容 > 区域”下的“内容区域”中排除“评论”ID。
评论部分将不会针对自定义搜索进行分析,我们可以看到重新运行搜索会显示此页面上出现了 0 次。
多线
您可以将自定义搜索扩展为 HTML 中的多行。这意味着它可用于查找 HTML 中的完整代码,例如 Google Analytics 跟踪代码(其他分析平台可用)。
单击搜索查询框右侧的箭头以展开文本区域,例如,您可以输入整个 GTM 容器代码段。
这意味着您不需要将搜索妥协为跟踪标签的较小的单行或单词,您可以验证整个代码段。
使用抓取数据进行分析
自定义搜索过滤器数据会自动附加到“内部”选项卡,该选项卡将所有内部数据合并到爬网中。
因此,您可以将自定义搜索与其他抓取数据进行匹配以获得更多洞察。
提取数据
最后,值得重申的是,自定义搜索不会“抓取”或提取数据,它只会搜索。