Деятельность ботов-пауков и краулинг-ботов известных поисковых систем обычно не влияет на загрузку сайта и на скорость его работы. Но большая часть ботов не приносит пользы, более того, они вредят производительности сайта.
Например, боты типа DotBot или Semrush, посылали так много запросов на сайт, что это было похоже на эффект небольшой DDoS-атаки. Это приводило к сильной перегрузке сайта и сервера, и сайт становился недоступным для других посетителей.
Рекомендуется блокировать слишком активных ботов, если на вашем сайте более 100 страниц.
Блокирование вредоносных ботов с использованием файла nginx.conf для Nginx.
Как заблокировать бота Baidu
1 2 3 4 5 | Добавьте этот код http{} секцию nginx.conf: #block baidu bot nginx if ($http_user_agent ~* (baidu|baidubot) ) { return 403; } |
Как заблокировать AhrefsBot
Добавьте этот код в раздел HTTP{} в nginx.conf:
1 2 3 4 | #block AhrefsBot bot nginx if ($http_user_agent ~* (AhrefsBot) ) { return 403; } |
Как заблокировать MJ12bot
Добавьте этот код в раздел HTTP{} в nginx.conf:
1 2 3 4 | #block MJ12bot bot nginx if ($http_user_agent ~* (MJ12bot) ) { return 403; } |
Как заблокировать бота Detectify
Добавьте этот код HTTP{} секцию nginx.conf:
1 2 3 4 | #block detectify bot nginx if ($http_user_agent ~* (Detectify) ) { return 403; } |
Как заблокировать бота DuckDuckGo
Добавьте этот код в раздел HTTP{} в nginx.conf:
1 2 3 4 | #block DuckDuckGo bot nginx if ($http_user_agent ~* (DuckDuckGo) ) { return 403; } |
Как заблокировать бота Semrush
Добавьте этот код HTTP{} секцию nginx.conf:
1 2 3 4 | #block Semrush bot nginx if ($http_user_agent ~* (semrush) ) { return 403; } |
Как заблокировать бота Seznam
Добавьте этот код HTTP{} секцию nginx.conf:
1 2 3 4 | #block Seznam bot nginx if ($http_user_agent ~* (seznam) ) { return 403; } |
Как заблокировать бота Zgrab
Добавьте этот код HTTP{} секцию nginx.conf:
1 2 3 4 | #block Zgrab bot nginx if ($http_user_agent ~* (zgrab) ) { return 403; } |
Как заблокировать бота Petalbot
Добавьте этот код HTTP{} секцию nginx.conf:
1 2 3 4 | #block Petalbot bot nginx if ($http_user_agent ~* (petalbot) ) { return 403; } |
Как заблокировать бота Jorgee
Добавьте этот код в раздел HTTP{} в nginx.conf:
1 2 3 4 | #block Jorgee bot nginx if ($http_user_agent ~* (Jorgee) ) { return 403; } |
Как заблокировать бота Яндекса
Добавьте этот код HTTP{} секцию nginx.conf:
1 2 3 4 | #block Yandex bot nginx if ($http_user_agent ~* (yandex) ) { return 403; } |
Как заблокировать Dotbot
Добавьте этот код HTTP{} секцию nginx.conf:
1 2 3 4 | #block Dotbot bot nginx if ($http_user_agent ~* (dotbot) ) { return 403; } |
Как заблокировать бота Sogou
Добавьте этот код HTTP{} в раздел nginx.conf:
1 2 3 4 | #block Sogou bot nginx if ($http_user_agent ~* (sogou) ) { return 403; } |
Как заблокировать несколько ботов одновременно
Добавьте этот код HTTP{} секцию nginx.conf:
1 2 3 4 | #block bot nginx if ($http_user_agent ~* (baidu|baidubot|AhrefsBot|MJ12bot) ) { return 403; } |
Список известных краулеров
Вы можете блокировать любой пользовательский агент (User-agent), который вам нужен.
- 360Spider
- Ahrefs
- AhrefsBot
- ApacheBench
- Aport
- Applebot
- archive
- baidu
- BaiduBot
- Baiduspider
- Birubot
- BLEXBot
- bsalsa
- Butterfly
- Buzzbot
- BuzzSumo
- CamontSpider
- CCBot
- Cliqzbot
- CommentReader
- crazy
- curl
- dataminr
- Detectify
- DeuSu
- Digincore
- discobot
- Dispatch
- DomainSigma
- DomainTools
- dotbot
- duckduckgo
- Embedly
- exabot
- Ezooms
- facebookexternalhit
- FairShare
- Faraday
- FeedFetcher
- filterdb
- FlaxCrawler
- FlightDeckReportsBot
- FlipboardProxy
- FyberSpider
- getintent
- getprismatic
- Gigabot
- Go-http-client
- gold crawler
- GrapeshotCrawler
- help.jp
- HTMLParser
- HTTrack
- hybrid
- ia_archiver
- InfoSeek
- InterfaxScanBot
- InternetSeer
- Jakarta
- Java
- Jooblebot
- Jorgee
- JS-Kit
- km.ru
- kmSearchBot
- Kraken
- larbin
- Laserlikebot
- Leikibot
- libwww
- Lightspeedsystems
- Linguee
- LinkBot
- linkdexbot
- LinkExchanger
- linkfluence
- LinkpadBot
- LivelapBot
- LoadImpactPageAnalyzer
- ltx71
- lwp-trivial
- majestic
- masscan
- meanpathbot
- Mediatoolkitbot
- MegaIndex
- MetaURI
- mfibot
- MJ12bot
- MLBot
- musobot
- NerdByNature
- NetSeer
- NewShareCounts
- NING
- NjuiceBot
- Nutch
- Nuzzel
- omgili
- omgilibot
- OpenHoseBot
- openstat
- OptimizationCrawler
- Panopta
- PaperLiBot
- petalbot
- pflab
- PHP/
- pirst
- postano
- PostRank
- proximic
- ptd-crawler
- Purebot
- PycURL
- Python
- QuerySeekerSpider
- Riddler
- rogerbot
- Ruby
- SafeSearch
- Scrapy
- SearchBot
- semantic
- semrush
- SemrushBot
- Seopult
- seznam
- SeznamBot
- SISTRIX
- SiteBot
- Slurp
- SMTBot
- SMUrlExpander
- SNAPSHOT
- socialmediascanner
- sogou
- solomono
- SolomonoBot
- Soup
- spbot
- spredbot
- SputnikBot
- statdom
- StatOnlineRuBot
- suggybot
- Superfeedr
- SurdotlyBot
- SurveyBot
- SWeb
- trendictionbot
- TSearcher
- ttCrawler
- TurnitinBot
- TweetmemeBot
- ubermetrics
- UnwindFetchor
- urllib
- uTorrent
- veoozbot
- Voyager
- WBSearchBot
- Wget
- WordPress
- woriobot
- yandex
- Yeti
- YottosBot
- Zeuszgrab
- zitebot
- ZmEu