Google решил стандартизировать протокол Robots Exclusion Protocol (REP) | Статьи, новости, обзоры плагинов, тем club762.ru

Владельцы веб-сайтов исключают веб-краулеры уже на протяжении 25 лет с помощью протокола Robots Exclusion Protocol (REP). По данным Google, более 500 млн сайтов в сети используют файлы robots.txt для диалога с роботами. Но до сих пор не было ни официального стандарта интернета, ни спецификации для корректного написания правил в соответствии с протоколом. В итоге разработчики нередко делились своими собственными интерпретациями протокола, что привело к созданию различных методов взаимодействия с краулерами.

Google совместно с Мартийном Костером, автором протокола, а также в сотрудничестве с вебмастерами и владельцами других поисковых систем активно работает над тем, чтобы создать предложение для Internet Engineering Task Force (IETF) по стандартизации REP:

«Предлагаемый черновик REP отражает более чем 20-летний реальный опыт работы с правилами robots.txt, используемыми как роботом Googlebot, так и другими крупными краулерами. Мы имеем около полумиллиарда сайтов, которые применяют REP. Эти детальные элементы управления позволяют издателям решать, что именно они хотят индексировать на своем сайте и потенциально выводить заинтересованным пользователям. Правила, установленные в 1994 году, не будут меняться – вместо этого черновик REP позволит прописать практически все неопределенные сценарии для парсинга и сопоставления robots.txt, что расширит его для современной сети».

Предлагаемая спецификация включает в себя несколько основных пунктов, которые будут важны для вебмастеров и разработчиков. Обновленная спецификация расширяет использование robots.txt на любые протоколы передачи данных на базе URI (FTP, CoAP и т.д.); раньше все ограничивалось только HTTP. Также спецификация реализует новое максимальное время кэширования, составляющее 24 часа, и позволяет владельцам сайтов обновлять файл robots.txt в любое выбранное время; в итоге запросы от краулеров не будут перегружать сайт. Если ранее доступный файл robots.txt стал недоступным по каким-либо причинам, краулеры не ринутся тут же индексировать уже известные им запрещенные к индексированию страницы, которые оставались таковыми довольно долгий период времени.

Google также открыл код библиотеки C++, которая использовалась для парсинга и сопоставления правил в файлах robots.txt. Также был открыт код инструмента для тестирования правил. Разработчики могут использовать парсер для создания других парсеров, использующих предложенные требования REP. Парсер был обновлен, чтобы гарантировать, что Googlebot индексирует только то, что ему разрешено, и теперь он доступен на GitHub.

«Библиотека существует уже 20 лет, и в ней содержится код, который был написан еще в 90-е», — говорится в анонсе команды Google’s Search Open Sourcing. – «С тех пор библиотека развивалась; мы многое узнали о том, как вебмастера пишут файлы robots.txt, узнали про крайние случаи, которые нам потребовалось покрыть, а также добавили то, что мы выявили за эти годы, к черновой спецификации».

Лиззи Харви, которая отвечает за техническую документацию Google’s Search, обновила спецификацию robots.txt, чтобы она лучше отвечала черновику REP. Вы можете ознакомиться с полным списком изменений по ссылке. Вы можете сравнить ваши файлы robots.txt с предложенной спецификацией. Если предложение по стандартизации REP будет успешно принято IETF, дни поиска недокументированных правил robots.txt уйдут в прошлое.