问题
我们如何允许 Googlebot 和其他网络爬虫通过帕洛阿尔托网络防火墙?
什么是 Googlebot 或网络爬虫?
web 爬虫是一个程序, 访问网站 , 阅读他们的网页和其他信息, 以创建搜索引擎索引条目.
详细
当网站受到帕洛阿尔托网络防火墙的保护时, 允许80端口足以让 Google 的 web 爬虫 (蜘蛛) 或任何其他 web 爬虫访问该网站以索引内容并将其添加到搜索结果中, 但是当使用应用程序作为安全策略, 还有更多的要求。
答案
要允许 Googlebot 或任何其他 web 爬虫通过防火墙, 除了已经允许的应用程序 (web 浏览、ping、flash 等) 之外, 还需要允许 "web 爬网程序" 应用程序.
为了使 "网络爬虫" 能够正常工作,还需要允许"网络浏览". 请参阅下面的应用程序区域 pic 中的 "依赖于应用程序:" 区域。从对象 >> 应用程序的 Web 爬行器详细信息屏幕
注意:如果您的安全策略需要限制 web 爬网从特定的web 爬虫, 则管理员需要在安全策略中使用源 IP. 此时, 帕洛阿尔托网络没有单独的 "Googlebot" 应用程序。
所有者: acamacho