Документация Google претерпела изменения в ходе перевода Robots Exclusion Protocol (REP) в официальный веб-стандарт.
Главные изменения выглядят так:
файл robots.txt стал поддерживать все URI-протоколы;
Google отказался от раздела «Язык требований»;
для переадресации Гуглбот использует как минимум пять повторений. В случае необнаружения файла robots.txt цикл обращений завершается и присваивается код ошибки 404;
неполные данные и неудачные запросы расцениваются поисковиком как ошибка на стороне сервера;
в случае отсутствия доступа к robots.txt свыше 30 дней (ошибки 5xx) Google будет использовать последнюю сохраненную в кэше копию файла. Если и к ней доступа нет, это сигнал, что сканировать можно все страницы;
поисковая система отказывается распознавать элементы файла с опечатками и/или ошибками (к примеру, «useragent» вместо «user-agent»);
максимальный размер файла robots.txt, который способен обработать Google, 500 кибибайт (КиБ).
В обновленной документации Google по robots.txt также исчезли отсылки к более неактуальной схеме сканирования Ajax. Кроме того, обновлен формальный синтаксис (добавлены символы UTF-8) и определение «групп» (появился пример пустой группы).