Плохие боты и краулеры (user-agent)

В статье переставлен список плохих ботов и краулеров, с их описанием для понимания каких ботов можно блокировать.

В статье описаны различные боты, это не означает что их стоит незамедлительно блокировать, цель статьи дать понимание для чего служит той или иной бот.

Статья периодически обновляется.

Важный момент, все SEO боты могут быть полезны, лишь в том случае, если вы являетесь клиентом данной компании, во всех остальных случаях, данные, пол

Как блокировать ботов

  • Блокировка User-Agents в файле .htaccess
  • Cloudflare блокировка по User-Agent

Список "плохих" ботов

BLEXBot

SEO бот, собирает данные для сайтов для продажи своим клиентам. Вначале может делать несколько запросов к сайту, но в какой-то момент не может умерить свой аппетит и начинает создавать значительную нагрузку на сайт.

Если вы не являетесь клиентом webmeup, рекомендуется его заблокировать.

Semrush

Еще один SEO бот, так же может создавать значительную нагрузку на сайт.

Бот инструмента Backlink Audit

DataForSeoBot

SEO бот сервиса DataForSeo. Основная задача: Анализ обратных ссылок.

Moz

SEO бот компании Moz, если не используете их API, то скорее всего этот бот вам так же не нужен.

AhrefsBot

SEO бот компании Ahfers, используется для сбора аналитики по сайтам.

PetalBot

PetalBot - это бот поисковой системы "Petal Search" от компании Huawei. Является "вежливым ботом" и периодически запрашивает файл "/robots.txt" для того, чтобы следовать указаниям вебмастера. Это бот, как и многие другие индексирующие роботы поисковых систем, запрашивает страницы сайта и изображения.

Создает незначительную нагрузку на сайт, блокировать стоит если не заинтересованы в поисковой системе Petal Search.

Barkrowler

Barkrowler - это бот компании eXenSa, компания занимается машинным обучением и анализом текстовых данных.

Может создавать сотни или больше запросов к сайту.

MJ12bot

Бот SEO аналитики компании Majestic. Рекомендуется к блокировке. Если появился, то будет создавать значительную нагрузку на сайт.

Serendeputy

Бот собирающий страницы в новостную ленту serendeputy.com.

netEstate NE Crawler

Сканер немецкой компании, специализирующейся на краулерах, поисковых системах и семантических веб-технологиях. Другими словами, очередной SEO бот. После попадания на сайт начинает без меры сканировать все страницы, создавая нагрузку.

SeopultContentAnalyzer

Очередной SEO бот, от компании PromoPult (бывш. SeoPult). Если не являетесь их клиентами, то лучше блокировать.

CCBot

Бот собирает различную информацию с веб-страниц, для передачи исследователям. Трафика от него не будет как и пользы. При это не создает какую либо нагрузку, выполняет несколько запросов в минуту.

MegaIndex

SEO бот, от компании MegaIndex. Если не являетесь их клиентами, то лучше блокировать. При "обнаружении" сайта довольно активно начинает сканировать страницы, создавая дополнительную нагрузку.

Serpstatbot

SEO бот собирающий и отслеживающий ссылки в Интернет, используется для маркетинга.

ZoominfoBot

ZoomInfo - это платформа для сбора информации о рынке для команд продаж и маркетинга B2B. Интегрированная облачная платформа предоставляет продавцам и маркетологам информацию, которая помогает им находить потенциальных новых клиентов.

Linkfluence

Linkfluence занимается анализом данных в социальных медиа. Компания специализируется на европейском рынке и предлагает готовую систему для сбора и анализа данных. Linkfluence позиционирует себя как готовое решение для получения Actionable Insight. Семейство Linkfluence содержит два продукта – это Radarly и Search. Первый из них помогает обнаруживать упоминание вашего бренда в сети, в том числе за счет распознавания логотипов, а Linkfluence Search позволяет сравнивать ROI и эффективность ваших кампаний, сравнивать свои результаты с конкурентными брендами и находить “горячие” тренды в социальных медиа.

NetcraftSurveyAgent

Netcraft предоставляет услуги по обеспечению интернет-безопасности , включая обнаружение и пресечение киберпреступлений, тестирование приложений и сканирование PCI.

Бот может игнорировать настройки robots.txt и создавать значительную нагрузку на сайт.

weborama

Инструментарий digital-рекламы, занимается анализом данных об интернет-аудитории. Если не являетесь их клиентами, то лучше блокировать, трафика он Вам точно не принесет.

SeekportBot

Похоже, что оригинальная поисковая система SeekPort обанкротилась, и домен приобрела SEO-компания. Этот бот ползает с нелепо высокой скоростью в течение нескольких часов подряд, в конечном итоге вызывая перегрузку сервера на некоторое время.

SEOkicks

Краулер SEOkicks ищет на сайтах внешние ссылки на другие домены и записывает их, включая текст ссылки и атрибуты ссылки, в базу данных. Через веб-сайт SEOkicks операторы сайтов имеют возможность конкретно запрашивать, с каких сайтов интернет-страница получает ссылки. Если не являетесь их клиентом, то лучше блокировать.

AwarioBot

AwarioSmartBot и AwarioRssBot - это веб-краулеры, отправленные компанией Awario для обнаружения и сбора новых и обновленных веб-данных (которые в дальнейшем используются интернет-маркетологами со всего мира).

Keys.so

Сервис анализа конкурентов в SEO и PPC keys.so. Если не являетесь их клиентом, то лучше блокировать.

GetIntent Crawler

Бот компании GetIntent. Собирает данные о сайтах для маркетинговых целей, например, для анализа перспектив размещения контекстной рекламы.

Bytedance

"Любит" создавать избыточную нагрузку на сайты, расходую ресурсы и трафик.

Компания ByteDance Ltd. (китайский: 字节跳动; пиньинь: Zìjié Tiàodòng) - китайская компания в сфере интернет-технологий со штаб-квартирой в Пекине и зарегистрированная на Каймановых островах. Основанная Чжаном Имином, Ляном Рубо и группой других сотрудников в 2012 году, ByteDance разработала социальные сети и приложения для обмена видео TikTok и китайский аналог Douyin. Компания также является разработчиком новостной платформы Toutiao.

ClaudeBot

ClaudeBot - бот искусственного интеллекта Claude, разработки компании Anthropic из США. IP адреса постоянно меняются, при этом игнорирует robots.txt

Бот постоянно сканирет различные материалы, скачивал целые массивы данных, создавая наргрузку на веб сервер.

Прочие боты

BuiltWith

Система BuiltWith посещает веб-сайт, чтобы определить используемый на нем технологический профиль, просматривая общедоступный код веб-сайта.

Riddler

Riddler - это онлайновый исследовательский проект, который изучает алгоритмы отображения топологии Интернета. Riddler собирает данные об общедоступных системах посредством краулинга и картирования общих портов.

Screaming Frog SEO Spider

Screaming Frog SEO Spider - это SEO краулер веб-сайтов, извлекая данные и проводя аудит на предмет распространенных проблем SEO. Если вы не пользуетесь данным инструментом, лучше его заблокировать.

Go-http-client

Стандартный User-Agent языка GO. Встречался при попытке поиска уязвимостей, сканирование сайта и краулинга страниц.

 

PR-CY.RU

SEO бот от PR CY. Используется для комплексного анализа сайта, если не являетесь их клиентом, то лучше блокировать.

Не создает нагрузку на сайт, так как работает по запросу.

wp_is_mobile

wp_is_mobile - бот прикидывающийся функцией WordPress для проверки является ли клиент мобильным устройством. "Используется" для поиска уязвимостей на сайте.

ALittle Client

ALittle Client - Бот проверяет наличие файлов, обычно связанного с компрометацией (взломом) сайта.

Apache-HttpClient

Apache-HttpClient - стандартный User-Agent библиотеки Apache HttpComponents Client. Написан на Java. Так же встречался при попытке поиска уязвимостей.

Linux Mozilla

Бот проверяет наличие файлов, обычно связанного с компрометацией (взломом) сайта.

paloaltonetworks

Сканер американской компании Palo Alto Networks, Inc, занимающейся информационной безопасностью. Сканирует весь интернет, заходит обычно один раз в сутки. Можно заблокировать или написать письмо, в целом погоды это не сделает.

BackupLand

Иногда заходит, примерно раз в сутки. Сканирует сайты на вирусы. Если не являетесь клиентом BackupLand особой пользы от него не будет.

Scrapy

Платформа с открытым исходным кодом для извлечения данных с веб-сайтов. Другими словами это библиотека Python для получения данных с сайтов.

"Hello, world"

User-Agent по умолчанию, используемых в различных экплойтах, обычно используемых Скрипт-кидди без изменений.

Скрипт-кидди (англ. Script kiddie) — в хакерской культуре пейоративное название тех, кто пользуется скриптами или программами, разработанными другими, для атаки компьютерных систем и сетей, не понимая механизма их действия.

Пример запроса:

Nuclei

Сканер Nuclei используется для отправки запросов по целям на основе шаблона. Nuclei сканирует различные протоколов, включая TCP, DNS, HTTP, SSL, File, Whois, Websocket, Headless и др. Благодаря мощному и гибкому шаблонированию, Nuclei может быть использован для моделирования всех видов проверок безопасности.

WellKnownBot

Well-Known - это бесплатный, открытый индекс известных ресурсов (Well-Known). Он сканирует миллионы доменов с регулярными интервалами, составляя базу данных структурированных данных известных ресурсов, доступную для поиска.

WellKnownBot выполняет автоматические запросы, он не является веб-краулером/пауком. Он запрашивает только небольшое количество определенных ресурсов, предназначенных для публичного, программного потребления. Поскольку WellKnownBot не является краулером, он не следует общим правилам User-Agent: * правила краулинга в файлах robots.txt.

Не создает нагрузку на сайт, но периодически создает ошибки 404.

KOCMOHABT

Поисковый бот имеет небольшой индекс из почти 5 миллионов сайтов. Полезен при поиски информации по определенному сайту (проекту), Kozmonavt работает хорошо (при условии, что в его индекс попал этот сайт). Для обучения и поиска общей информации он работает плохо. По нему нет контактной информации, политики конфиденциальности или любой другой информации о тех, кто его создал.

Трафика не принесет, можно смело блокировать.

AcademicBotRTU

AcademicBotRTU - это веб-краулер, разработанный для индексации веб-сайтов и документов, по которым можно сравнивать и сопоставлять академические работы студентов и исследователей, чтобы помочь образовательным и научным учреждениям находить и предотвращать плагиат. Бот разработан и работает в Институте прикладных компьютерных систем Рижского технического университета.

Антиплагиат бот, пользы точно не будет.

Statdom

Проект "Домены России" использует ряд программно-аппаратных решений (роботов, ботов, "пауков") для сбора данных об инфраструктуре российских и международных сегментов Интернета.

Turnitin

Этот робот собирает контент из Интернета с целью - помочь учебным заведениям предотвратить плагиат. Сравнивая студенческие работы с контентом, найденным в Интернете, чтобы найти сходство.

Amazonbot

Amazonbot - это веб-краулер Amazon, используемый для улучшения сервисов Amazon, например, для того, чтобы Alexa могла отвечать вопросы. В целом абсолютно бесполезен, врядли принесет трафик.

Понравилась статья? Поделиться с друзьями:
Комментарии: 4
  1. Avatar for Альберт
    Альберт

    Благодарю, дополнил защиту 1 ботом и 3 сканерами.

    1. Avatar for Gnostis
      Gnostis (автор)

      Спасибо за обратную связь.)
      Список агентов периодически обновляю

  2. Avatar for Юрий
    Юрий

    Подскажите, а как заблокировать бот amazon?
    (ec2-47-128-25-227.ap-southeast-1.compute.amazonaws.com)

    1. Avatar for Gnostis
      Gnostis (автор)

      User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML\, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1; +https://developer.amazon.com/support/amazonbot)

      Через robots.txt

      User-agent: Amazonbotagent
      Disallow: /

      Через htaccess (https://g-soft.info/apache/1805/blokirovka-user-agents-v-fayle-htaccess/)

      RewriteEngine On
      RewriteCond %{HTTP_USER_AGENT} ^Amazonbot
      RewriteRule ^.* - [F,L]

      В Cloudflare (https://g-soft.info/cloudflare/11195/kak-ispolzovat-pravila-brandmauera-cloudflare-dlya-zaschity-veb-prilozheniy/)
      (http.user_agent contains "Amazonbot")

Добавить комментарий