如何使用自定义搜索

1) 添加自定义搜索过滤器

单击顶级菜单中的“配置 > 自定义 > 搜索”以打开自定义搜索配置。

自定义搜索

然后单击“添加”(在右下角)以设置自定义搜索过滤器。

添加自定义搜索过滤器

将出现自定义搜索过滤器。您最多可以在爬网中添加 100 个单独的过滤器。

自定义搜索过滤器


2) 输入您的搜索

现在在“输入搜索查询”框中输入您的搜索并调整每个搜索过滤器选项。

从左到右,您可以命名搜索过滤器,选择“包含”或“不包含”,选择“文本”或“正则表达式”,输入您的搜索查询 – 并选择执行搜索的位置(HTML、页面文本、一个元素,或 XPath 等)。

自定义搜索过滤器

上面的示例显示了在任何页面的文本中搜索“缺货”,以及搜索在页面的 HTML head 元素中不包含 Google 跟踪代码管理器跟踪代码的任何页面。

设置过滤器后,您可以单击“确定”并运行爬网来执行搜索。


3) 抓取网站

在“输入蜘蛛网址”框中键入或复制您要抓取的网站,然后点击“开始”。

自定义搜索网站抓取

等到爬网完成并达到 100%,或者在自定义搜索选项卡过滤器填充时实时观看。


4) 在自定义搜索选项卡和过滤器中查看数据

单击“自定义搜索”选项卡以实时查看自定义搜索的结果。默认情况下,来自所有搜索的数据一起显示在选项卡中,但过滤器可用于细化数据以仅显示每个单独的过滤器。

自定义搜索结果数据

“包含”过滤器将显示搜索出现的次数,而“不包含”搜索将返回“包含”或“不包含”。

在此搜索中,有 2 页带有“缺货”文本,每页只包含一次该词——而在 10 页中的任何一页上都没有找到 GTM 代码。

这些数字也可以在右侧的“概览”窗格中看到,该窗格实时更新过滤器计数。

自定义搜索右手概述


5) 出口

单击“导出”按钮导出自定义搜索数据,该按钮与过滤器和当前视图一起使用。

自定义搜索导出

您还可以通过“批量导出”>“自定义搜索”>“过滤器 X 链接”将“链接”(链接的源页面)导出到自定义搜索过滤器。

自定义搜索批量导出


高级搜索过滤器选项

通过将过滤器组合在一起并调整搜索过滤器配置,自定义搜索可以非常强大。特别是,使用正则表达式并选择执行搜索的位置。

区分大小写

如果您需要执行区分大小写的搜索,在搜索“文本”时,您可以单击框右侧的箭头以展开文本区域并选择“区分大小写”。

自定义搜索区分大小写

‘Regex’ 默认情况下区分大小写,以使其不区分大小写,在单词前使用 (?i)。例如 –

(?i) 优化

将匹配“优化”和“优化”,甚至“优化”。

在搜索品牌名称的拼写错误或首字母缩略词等时,区分大小写特别有用。

精确和多词

您可以选择使用常规文本进行搜索,或者对于更高级的用途,您可以切换到正则表达式。

自定义搜索正则表达式

例如,使用正则表达式,您可以使用以下内容匹配精确的单词。

bwordb

这将匹配特定的单词(在本例中为“单词”),因为 b 匹配单词边界。

这在搜索可以是其他词的单词或短语时非常有用,例如“pr”(将出现在我们网站上的“促销”、预渲染等中!)。

不使用单词边界,“pr”在我们的数字公关页面上出现了 12 次。对于精确的、区分大小写的匹配,它实际上是 0。

使用正则表达式精确搜索单词

您还可以在搜索中将单词组合在一起。例如,如果您想查找包含“自然”、“有机”和“免费”等词的任何页面,您可以使用管道在单个过滤器中组合词。

bnaturalb|borganicb|bfreeb

这将计算每个词的每个实例,例如,我们的“搜索引擎优化”页面有 3 次“有机”和“自然”和“免费”一次,总共 5 次。

多词自定义搜索

您可以单击标题以按出现次数排序,如示例中所示。

组合搜索

您可以组合过滤器并同时查看它们。因此,如果您想搜索包含某个单词但不包含其他单词的任何页面,请使用多个过滤器并在自定义搜索选项卡中一起查看。

组合搜索过滤器

在此示例中,您可以看到没有同时使用单词“crawler”和“best”的情况。这是合适的!

搜索

自定义搜索将根据您的呈现模式检查原始 HTML 或呈现的 HTML 。默认情况下,它将检查原始 HTML,但如果您已配置 JavaScript 呈现模式,它将检查呈现的 HTML。

然后,您可以精确优化执行自定义搜索的位置。

自定义搜索

这 7 个可用选项可让您控制搜索位置 –

  • HTML – 网页的完整 HTML。
  • 页面文本– 网页文本,不包括任何 HTML。
  • 无锚页面文本– 网页文本,不包括任何 HTML 或 HTML 锚标签(也称为 A 元素)中包含的任何文本。这在搜索也包含在菜单内链接文本中的单词时会很有帮助,这可能会导致每个页面都被标记为包含搜索内容。
  • HTML标题 – 网页的 HTML 标题。
  • HTML正文 – 网页的 HTML 正文,可以包含 HTML 和页面文本。
  • XPath – 您可以提供 XPath 来指定执行搜索的 HTML 中的位置。例如,如果您只想针对 h3 标题中包含的文本运行搜索,您可以提供 //h3。
  • 内容区域– 您可以指定用于字数统计、近似重复内容分析以及拼写和语法检查的内容区域 – 也可以选择用于自定义搜索。默认情况下,这包括包含在正文 HTML 元素中的文本,不包括导航和页脚元素以关注页面的主要内容。根据内容区域指南,可以排除和包含 HTML 元素、类和 ID 。

选择搜索位置通常非常有用。一个很好的例子是在我们自己的网站上发现我们将“Screaming Frog”拼错为“Screaming Frog”而没有大写“F”的地方。

使用“页面文本”运行区分大小写的搜索会在我们的断开链接博客文章中返回 7 次。

尖叫青蛙自定义搜索

但是,在检查页面时,拼写错误位于博客文章的“评论”部分,而不是在主要博客正文中。

要从自定义搜索中排除此评论部分,您可以在浏览器中右键单击并“查看源代码”并在 HTML 中搜索相应的“评论”部分。

这显示了“评论”的 HTML ID,可用于排除。

在自定义搜索的内容设置中排除 HTML ID

然后可以在“配置 > 内容 > 区域”下的“内容区域”中排除“评论”ID。

用于拼写和语法检查的内容区域

评论部分将不会针对自定义搜索进行分析,我们可以看到重新运行搜索会显示此页面上出现了 0 次。

使用内容区域进行自定义搜索

多线

您可以将自定义搜索扩展为 HTML 中的多行。这意味着它可用于查找 HTML 中的完整代码,例如 Google Analytics 跟踪代码(其他分析平台可用)。

单击搜索查询框右侧的箭头以展开文本区域,例如,您可以输入整个 GTM 容器代码段。

多行自定义搜索

这意味着您不需要将搜索妥协为跟踪标签的较小的单行或单词,您可以验证整个代码段。

使用抓取数据进行分析

自定义搜索过滤器数据会自动附加到“内部”选项卡,该选项卡将所有内部数据合并到爬网中。

使用抓取数据进行自定义搜索

因此,您可以将自定义搜索与其他抓取数据进行匹配以获得更多洞察。

提取数据

最后,值得重申的是,自定义搜索不会“抓取”或提取数据,它只会搜索。

给TA打赏
共{{data.count}}人
人已打赏
SEO交流

15+ DOFOLLOW 基础外链 DA>45

2021-6-27 19:33:20

SEO交流

如何分析链接位置

2021-6-28 10:03:02

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索