Поддержка Проблемы и решения Помогите разобраться с robots.txt

  • Всем добрый день.
    Вопрос в следующем, никак не могу разобраться, все говорят, что хорошо бы закрыть дублирующийся контент и предлагают варианты файла robots.txt. У меня настроены ЧПУ вида сайт/год/месяц/название, со всех «дублирующих» страниц идет обычная ЧПУ ссылка, без добавок т.е. откуда бы я не хотел попасть в статью адрес один и тот же, значит дублируется только анонс до тэга more, а не сами статьи? Или нет? Предложенные варианты robots закрывают страницы (page), категории, архивы, тэги. Вопрос, если поисковик не успел проиндексировать статью с главной страницы, то как он ее найдет тогда, все-таки что должно быть открыто? Что лучше? Я склоняюсь к архивам, но так, чтобы там только названия статей оставались без анонсов.

Просмотр 15 ответов — с 1 по 15 (всего 19)
  • Почитайте «Идеальный robots.txt для WordPress»: часть 1-ю и 2-ю, включая комменты.

    Самое простое написать пойди туда… Если почитать внимательно первое сообщение, то вопрос возникает в отсутствие этого самого контента дублирующегося, если я вижу просто ссылки, то почему поисковик должен увидеть что-то другое? А то, что из разных мест ссылки на одну и ту же страницу это не проблема ну стоят и стоят.

    Я послал туда и обратил внимание, что надо читать комменты не просто так.
    Например, это:

    А зачем закрывать page? Ведь там другая страница с совсем другим контентом.

    Во второй части в комментариях самого поста (перед «Что дальше») всё и расписано.
    Кстати, там же есть ещё один интересный пост.

    «Disallow: /page/» — запрет индексации листинга постов в отсчте от главной, закрывается с целью избежать дублирование контента, ускорения индексации.

    Например, как будет дублироваться контент, ведь ссылки все прямые или мы бьемся за недублирование анонсов? Почему спрашиваю, с целью понять верно ли:

    А зачем закрывать page? Ведь там другая страница с совсем другим контентом.

    Да, они будут дублированными только до тега more. Если статьи большие, то большого вреда не будет, а если посты небольшие, порядка нескольких строк?
    Так же дублирование (даже первых абзацев) негативно влияет на главную страницу, ведь первые абзацы статей на главной будут продублированы, если не путаю, в:
    в архивах по дате
    в архивах по автору
    по тегам
    по категориям
    по страницам
    То есть уменьшается «ценность» главной страницы в глазах поисковых систем.

    Под дублированием понимается дублирование кусков кода, в данном случае — текстового наполнения, находимого на разных! страницах. То есть, поисковые системы достаточно «умны», чтобы запоминать, что такой кусок кода они уже встречали в другом месте.

    А для ускорения индексации всех постов при закрытом дубляже в роботс тхт используйте два плагина:
    Dagon Design Sitemap Generator 3.16 — http://www.dagondesign.com/articles/sitemap-generator-plugin-for-wordpress/
    И Google XML Sitemaps 3.1.2 — http://www.arnebrachhold.de/projects/wordpress-plugins/google-xml-sitemaps-generator/

    Первый плагин сформирует ссылки на все посты в виде заголовков «карту сайта» которую можно вывести на отдельную страницу, а второй карту сайта в формате xml, который «понимают» гугл, яндекс и другие поисковые системы.

    Спасибо, растолковали за что боремся, а то в одном из блогов увидел следующее:

    http://www.ваш-сайт.ru/category/news/kak-ya-vstretil-novy-god
    http://www.ваш-сайт.ru/page/2/kak-ya-vstretil-novy-god
    http://www.ваш-сайт.ru/tag/novygod/kak-ya-vstretil-novy-god

    А при попытке подобного набора на сайте попадаю автоматом на нормальную страницу без довесков. Вот я и задумался о том, что дублирования контента нет.
    Насчет первых строк- дублирующийся контент поисковиками фильтруется на выдаче, а индексируется нормально, а например ссылки увеличивают pr или я ошибаюсь?

    Любые ссылки уменьшают PR той страницы, с которой они идут и увеличивают, PR той на которую направлены, внутренние на блоге передают вес другим страницам, а внешние — чужому дяде. В идеале, на главной нужно меньше ссылок и чтобы на неё вело как можно больше ссылок. Вопросы подобного плана можно задавать здесь — http://forum.searchengines.ru/forumdisplay.php?f=25

    vituson спасибо. Если сделать карту сайта, то все остальное можно закрыть и не париться.

    Конечно, у меня именно так и сделано. Только для надёжности вывести карту сайта на отдельную страничку и всё. И ссылки на любые статьи будут в 2-х кликах от главной, что хорошо для индексации.

    Начали с файла robots.txt и у меня вопрос к знающим:
    Создала файл robots.txt на сайт inmarket-rihter точка info и решила проверить на robots.txt от Yandex и в результате выдал ошибку:
    О╩©User-agent: YandexBlog Обнаружена неизвестная директива
    Что за чушь? Я перед User-agent: вообще никаких знаков не ставила, в том числе и пробелов нет никаких.

    И по поводу карты сайта:
    1) Карта сайта у меня от Dagon Design Sitemap
    и адрес карты сайта не мойсайт/sitemap, а мойсайт/?page_id=81 Читала, что адрес тоже важен. Так ли это? Ели так, то как можно исправить адрес?
    2) Google XML Sitemaps и Dagon Design Sitemap одинаково хороши для индексации и продвижения или какой-то лучше?
    3) Dagon Design Sitemap тяжеловат, при заходе на страницу Карта сайта динамически генерит карту каждый раз? Не велика ли нагрузка будет на базу данных и на движек?
    Стоит ли скопировать сгенерированную Dagon Design Sitemap Generator карту сайта через просмотр html кода и вставить его в страницу напрямую.
    Зараннее благодарна ответившим.

    Atrax

    (@atrax)

    Ethical engineer

    1. Настройте постоянные ссылки в админке.
    2. Это разные вещи для разных целей.
    3. Да, это хорошее решение.

    Карту сайта я перенесла с плагина на страницу.
    Насчёт второго пункта конечно мало что понятно, но в принципе можно при желании разобраться.
    Что касается ссылок, если не трудно уточните пожалуйста — каким образом можно менять названия ссылок? Из предложенных настроек:
    День и название
    Месяц и название
    Числовой

    Мне не подходит ни один. Остаётся только
    Произвольная структура
    но что можно сюда вписать, чтобы страницы приобрели человеко понятные названия так и не поняла. По ссылке если переходить, то там на инглиш лэнгвич, что я не разумею.

    А про файл robots.txt кто-нибудь знает — что бы это могло значить?

    Создала файл robots.txt на сайт inmarket-rihter точка info и решила проверить на robots.txt от Yandex и в результате выдал ошибку:
    О╩©User-agent: YandexBlog Обнаружена неизвестная директива
    Что за чушь? Я перед User-agent: вообще никаких знаков не ставила, в том числе и пробелов нет никаких.

Просмотр 15 ответов — с 1 по 15 (всего 19)
  • Тема «Помогите разобраться с robots.txt» закрыта для новых ответов.