РАБОТА В ИНТЕРНЕТЕ БЕЗ ВЛОЖЕНИЙ НА ДОМУ. ИНФО. ССЫЛКИ.

Что такое файл robots.txt

Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности.

Как создать robots.txt

Воспользуйтесь любым текстовым редактором (например, Блокнотом или WordPad'ом), создайте файл с именем "robots.txt" и заполните его в соответствии с представленными ниже правилами. После этого необходимо загрузить файл в корневой каталог вашего сайта.

Чтобы проверить правильность обработки вашего файла robots.txt, воспользуйтесь анализатором файла robots.txt.

Директива User-agent

Управлять доступом робота поисковика к вашему сайту вы можете при помощи файла robots.txt, который должен быть размещен в корневой директории сайта. Робот Яндекса поддерживает стандарт описания http://www.robotstxt.org/wc/norobots.html с расширенными возможностями, описанными ниже.

В роботе используется сессионный принцип работы, на каждую сессию формируется определенный пул страниц, которые планирует закачать робот. Сессия начинается с закачки robots.txt сайта, если его нет, он не текстовый или на запрос робота возвращается HTTP-код отличный от '200', считается, что доступ роботу не ограничен. В самом robots.txt проверяется наличие записей, начинающихся с 'User-agent:', в них ищутся подстроки 'Yandex', либо '*' (регистр значения не имеет), причем, если обнаружено 'User-agent: Yandex', директивы для 'User-agent: *' не учитываются. Если записи 'User-agent: Yandex' и 'User-agent: *' отсутствуют, считается, что доступ роботу не ограничен.

Пример:
User-agent: YandexBot # будет использоваться только основным индексирующим роботом
Disallow: /*id=

User-agent: Yandex # будет использована всеми роботами Яндекса
Disallow: /*sid= # кроме основного индексирующего

User-agent: * # не будет использована роботами Яндекса
Disallow: /cgi-bin

Использование директив Disallow и Allow

Чтобы запретить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Disallow'. Примеры:
User-agent:
Disallow: / # блокирует доступ ко всему сайту

User-agent: Yandex
Disallow: /cgi-bin # блокирует доступ к страницам
#начинающимся с '/cgi-bin'

Примечание:

Недопустимо наличие пустых переводов строки между директивами 'User-agent' и 'Disallow' ('Allow'), а также между самими 'Disallow' ('Allow') директивами.

Кроме того, в соответствии со стандартом перед каждой директивой 'User-agent' рекомендуется вставлять пустой перевод строки.

Символ '#' предназначен для описания комментариев. Все, что находится после этого символа и до первого перевода строки не учитывается.

Чтобы разрешить доступ робота к некоторым частям сайта или сайту целиком, используйте директиву 'Allow'. Примеры:

User-agent: Yandex
Allow: /cgi-bin
Disallow: /
# запрещает скачивать все, кроме страниц
# начинающихся с '/cgi-bin'

Совместное использование директив.

Директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для данной страницы сайта подходит несколько директив, то выбирается последняя в порядке появления в сортированном списке. Таким образом порядок следования директив в файле robots.txt не влияет на использование их роботом. Примеры:
# Исходный robots.txt:
User-agent: Yandex
Allow: /catalog
Disallow: /
# Сортированный robots.txt:
User-agent: Yandex
Disallow: /
Allow: /catalog
# разрешает скачивать только страницы,
# начинающиеся с '/catalog'
# Исходный robots.txt:
User-agent: Yandex
Allow: /
Allow: /catalog/auto
Disallow: /catalog
# Сортированный robots.txt:
User-agent: Yandex
Allow: /
Disallow: /catalog
Allow: /catalog/auto
# запрещает скачивать страницы, начинающиеся с '/catalog',
# но разрешает скачивать страницы, начинающиеся с '/catalog/auto'.

Важно. В случае возникновения конфликта между двумя директивами с префиксами одинаковой длины приоритет отдается директиве Allow.

Директивы Allow-Disallow без параметров.

Отсутствие параметров у директивы трактуется следующим образом:
User-agent: Yandex
Disallow: # то же, что и Allow: /

User-agent: Yandex
Allow: # то же, что и Disallow: /

Использование спецсимволов "*" и "$"

При указании путей директив Allow-Disallow можно использовать спецсимволы '*' и '$', задавая, таким образом, определенные регулярные выражения. Спецсимвол '*' означает любую (в том числе пустую) последовательность символов.

Примеры:
User-agent: Yandex
Disallow: /cgi-bin/*.aspx # запрещает '/cgi-bin/example.aspx'
# и '/cgi-bin/private/test.aspx'
Disallow: /*private # запрещает не только '/private',
# но и '/cgi-bin/private'

Спецсимвол '$'

По умолчанию к концу каждого правила, описанного в robots.txt, приписывается '*',

например:
User-agent: Yandex
Disallow: /cgi-bin* # блокирует доступ к страницам
# начинающимся с '/cgi-bin'
Disallow: /cgi-bin # то же самое

Чтобы отменить '*' на конце правила, можно использовать спецсимвол '$',

например:
User-agent: Yandex
Disallow: /example$ # запрещает '/example',
# но не запрещает '/example.html'
User-agent: Yandex
Disallow: /example # запрещает и '/example',
# и '/example.html'
User-agent: Yandex
Disallow: /example$ # запрещает только '/example'
Disallow: /example*$ # так же, как 'Disallow: /example'
#запрещает и /example.html и /example

ROBOTS.TXT СКАЧАТЬ

	Суббота, 05.07.2025, 22:38
	ВСЕ О ЗАРАБОТКЕ В ИНТЕРНЕТЕ НА ДОМУ БЕЗ ВЛОЖЕНИЙ И ЛИШНЕЙ ПОТЕРИ ВРЕМЕНИ НА ПОИСК ИНФОРМАЦИИ ДАННЫЙ САЙТ НЕ ЯВЛЯЕТСЯ КОММЕРЧЕСКИМ ПРОЕКТОМ. СОЗДАН НА ОСНОВЕ ФОРУМОВ, СТАТЕЙ И ОПРОСОВ ПО ЗАРАБОТКУ В ИНТЕРНЕТЕ. В НЕГО ВКЛЮЧЕНЫ ТОЛЬКО ТЕ САЙТЫ, КОТОРЫЕ ПОЛЬЗУЮТСЯ ДОВЕРИЕМ У МИЛЛИОНА ПОЛЬЗОВАТЕЛЕЙ ИНТЕРНЕТА.

Главная \| Мой профиль \| Выход	Вы вошли как Гость \| Группа "Гости" \| RSS

ВСЕ О ЗАРАБОТКЕ В ИНТЕРНЕТЕ НА ДОМУ БЕЗ ВЛОЖЕНИЙ И ЛИШНЕЙ ПОТЕРИ ВРЕМЕНИ НА ПОИСК ИНФОРМАЦИИ