Интернет - справочник для веб-мастеров
    441-847-152
     
 
 
php, javascript,ajax,mysql,TIGER CMS
  Для начинающих
php, javascript,ajax,mysql,TIGER CMS
  Общие
php, javascript,ajax,mysql,TIGER CMS
  Безопасность
php, javascript,ajax,mysql,TIGER CMS
  Интересное
php, javascript,ajax,mysql,TIGER CMS
  Новости PHP
php, javascript,ajax,mysql,TIGER CMS
  PHP + AJAX
php, javascript,ajax,mysql,TIGER CMS
  JavaScript
php, javascript,ajax,mysql,TIGER CMS
  Дизайн
php, javascript,ajax,mysql,TIGER CMS
  Раскрутка
php, javascript,ajax,mysql,TIGER CMS
  Заработок
php, javascript,ajax,mysql,TIGER CMS
  Советы

   
 

   
 
  SEO статьи HTML, как раскрутить сайт
1. Рейтинг сайтов

длинная котлета


 
 
  Всего статей: 405
  Опубликовано: 405
  Проверяються: 0
  Добавлено сегодня: 0
-------------------------------------
  Прочитано статей: 405
  Всего прочтений: 181117
-------------------------------------
  Сейчас читают: 6 чел.


 

Поисковые роботы. Управляем индексацией сайта. [Версия для печати]
Разместил: admin . Раздел: Раскрутка. Опубликовано: 08-02-2007 20:46:50

Коротко о поисковых роботах.

Все поисковые системы для поиска и индексации используют программы-роботы. Их ещё называют пауками. Робот, попав на сайт, собирает с него всю информацию. Самую важную (по его мнению) информацию робот запоминает. Далее робот анализирует ссылки и идёт по ним. Он может обнаружить ссылку на другой ресурс и уйти по ней, покинув ваш сайт.

Важно уметь правильно управлять роботом. Только так можно заставить паука пройтись по каждой странице вашего сайта. Для управления роботами служат файл robots.txt, метаданные и тег <noindex>..</noindex>. Следует заметить, что некоторые роботы (например роботы Рамблера) игнорируют ключевые слова (keywords) и описания (description).

Посмотрим, что роботам интересно.

В первую очередь поисковые механизмы проверяют заголовок документа (<title>). Далее, как правило, в порядке значимости роботы анализируют следующие теги:

  • <h1>...</h1> ... <hN>...</hN>
  • <b>...</b>
  • <strong>...</strong>
  • <u>...</u>

Особое значение для роботов имеет тег <A>...</A>. В нём роботы могут обрабатывать атрибут title. Также пауки могут заглядывать в альтернативный текст изображений <img src="..." alt="альтернативный текст">.

Файл robots.txt

Попав на сайт, робот первым делом проверяет файл robots.txt. Если робот обнаруживает этот документ, то все дальнейшие действий он будет выполнять в соответствии с требованиями изложенными там. Если файла robots.txt нет, робот будет анализировать всё, что попадёт в его загребущие руки.

Роботы ищут файл robots.txt> только в корневом каталоге сайта. Размещать файл robots.txt в нескольких каталогах не имеет смысла, т.к. пауки будут игнорировать лишние копии. Имя файла robots.txt должно быть набрано маленькими буквами, поскольку имена интернет-ресурсов (URI) чувствительны к регистру.

Структура файла robots.txt следующая:

  • User-agent: имя робота
  • Disallow: запрещённые для индексации файлы

Файл robots.txt состоит из групп инструкций. Каждая из них начинается со строки User-agent: имя робота, которая указывает, для каких роботов относится следующая инструкция Disallow:. Инструкция User-agent: * будет распространяться на всех роботов.

Инструкций Disallow: в каждой группе может быть несколько (обязательно должна быть хотя бы одна).

Рассмотрим такую инструкцию: "Disallow: /folder/" Она запретит пауку посещение папки folder. А инструкция "Disallow: /folder" запретит посещение всех страниц, полное имя которых начинается с "/folder", например /folder.php, /folder/page1.html, folder5.html. Следует заметить, для того, чтобы инструкция Disallow: запрещала что-либо, указанный в ней путь должен начинаться с "/". Инструкция, которая содержит символ ‘*' или какой-либо другой символ, который не может присутствовать в имени файла, тоже не будет ничего запрещать.

К сожалению, пока нет инструкции, которая бы указывала на файлы и директории, которые надо проиндексировать. По этой причине приходится указывать список всего, что запрещено для индексации. Единственный разумный выход из этой ситуации - хорошо продумать структуру сайта.

Осталось сказать, что в файле robots.txt пустые строки разрешено вставлять только между группами (перед User-agent), а комментарии должны начинаться с символа "#".

META-теги "Robots"

Тег тоже управляет индексацией сайта, но в отличие от файла robots.txt он управляет индексацией одной web-страницы.

Для записи инструкций по индексации, используется поле content="...".

Приведем список всех возможных инструкций:

  • NOINDEX - запрещает индексирование документа;
  • NOFOLLOW - запрещает переход по ссылкам документа;
  • INDEX - разрешает индексирование документа;
  • FOLLOW - разрешает переход по ссылкам документа;
  • ALL - равносильно INDEX, FOLLOW;
  • NONE - равносильно NOINDEX, NOFOLLOW

По умолчанию принимается значение <meta name="Robots" content="INDEX, FOLLOW">.

В поле content дублирование инструкций, наличие противоречивых инструкций и т.п. не допускается; в частности, значение поле content не может иметь вид "none, nofollow".

Тег <noindex>...</noindex>

Тег <noindex>...</noindex> используется для запрета индексирования и перехода по ссылкам. Его действие начинается с и заканчивается .

Источник: http://webstat.ws/   Прочитана 674 раз.
  Закладки:  
     
     
     
Google
 




     
Copyright 2007 by bvisoft.com