Помогите разобраться с robots.txt

Решено kitaedz
(@kitaedz)

14 лет, 8 месяцев назад

Всем добрый день.
Вопрос в следующем, никак не могу разобраться, все говорят, что хорошо бы закрыть дублирующийся контент и предлагают варианты файла robots.txt. У меня настроены ЧПУ вида сайт/год/месяц/название, со всех «дублирующих» страниц идет обычная ЧПУ ссылка, без добавок т.е. откуда бы я не хотел попасть в статью адрес один и тот же, значит дублируется только анонс до тэга more, а не сами статьи? Или нет? Предложенные варианты robots закрывают страницы (page), категории, архивы, тэги. Вопрос, если поисковик не успел проиндексировать статью с главной страницы, то как он ее найдет тогда, все-таки что должно быть открыто? Что лучше? Я склоняюсь к архивам, но так, чтобы там только названия статей оставались без анонсов.

Просмотр 15 ответов — с 1 по 15 (всего 19)

1 2 →

Lob1AV
(@lob1av)

14 лет, 8 месяцев назад

Почитайте «Идеальный robots.txt для WordPress»: часть 1-ю и 2-ю, включая комменты.

Автор kitaedz
(@kitaedz)

14 лет, 8 месяцев назад

Самое простое написать пойди туда… Если почитать внимательно первое сообщение, то вопрос возникает в отсутствие этого самого контента дублирующегося, если я вижу просто ссылки, то почему поисковик должен увидеть что-то другое? А то, что из разных мест ссылки на одну и ту же страницу это не проблема ну стоят и стоят.

Lob1AV
(@lob1av)

14 лет, 8 месяцев назад

Я послал туда и обратил внимание, что надо читать комменты не просто так.
Например, это:

А зачем закрывать page? Ведь там другая страница с совсем другим контентом.

Во второй части в комментариях самого поста (перед «Что дальше») всё и расписано.
Кстати, там же есть ещё один интересный пост.

Автор kitaedz
(@kitaedz)

14 лет, 8 месяцев назад

«Disallow: /page/» — запрет индексации листинга постов в отсчте от главной, закрывается с целью избежать дублирование контента, ускорения индексации.

Например, как будет дублироваться контент, ведь ссылки все прямые или мы бьемся за недублирование анонсов? Почему спрашиваю, с целью понять верно ли:

А зачем закрывать page? Ведь там другая страница с совсем другим контентом.

vituson
(@vituson)

14 лет, 8 месяцев назад

Да, они будут дублированными только до тега more. Если статьи большие, то большого вреда не будет, а если посты небольшие, порядка нескольких строк?
Так же дублирование (даже первых абзацев) негативно влияет на главную страницу, ведь первые абзацы статей на главной будут продублированы, если не путаю, в:
в архивах по дате
в архивах по автору
по тегам
по категориям
по страницам
То есть уменьшается «ценность» главной страницы в глазах поисковых систем.

vituson
(@vituson)

14 лет, 8 месяцев назад

Под дублированием понимается дублирование кусков кода, в данном случае — текстового наполнения, находимого на разных! страницах. То есть, поисковые системы достаточно «умны», чтобы запоминать, что такой кусок кода они уже встречали в другом месте.

vituson
(@vituson)

14 лет, 8 месяцев назад

А для ускорения индексации всех постов при закрытом дубляже в роботс тхт используйте два плагина:
Dagon Design Sitemap Generator 3.16 — http://www.dagondesign.com/articles/sitemap-generator-plugin-for-wordpress/
И Google XML Sitemaps 3.1.2 — http://www.arnebrachhold.de/projects/wordpress-plugins/google-xml-sitemaps-generator/

Первый плагин сформирует ссылки на все посты в виде заголовков «карту сайта» которую можно вывести на отдельную страницу, а второй карту сайта в формате xml, который «понимают» гугл, яндекс и другие поисковые системы.

Автор kitaedz
(@kitaedz)

14 лет, 8 месяцев назад

Спасибо, растолковали за что боремся, а то в одном из блогов увидел следующее:

http://www.ваш-сайт.ru/category/news/kak-ya-vstretil-novy-god
http://www.ваш-сайт.ru/page/2/kak-ya-vstretil-novy-god
http://www.ваш-сайт.ru/tag/novygod/kak-ya-vstretil-novy-god

А при попытке подобного набора на сайте попадаю автоматом на нормальную страницу без довесков. Вот я и задумался о том, что дублирования контента нет.
Насчет первых строк- дублирующийся контент поисковиками фильтруется на выдаче, а индексируется нормально, а например ссылки увеличивают pr или я ошибаюсь?

vituson
(@vituson)

14 лет, 8 месяцев назад

Любые ссылки уменьшают PR той страницы, с которой они идут и увеличивают, PR той на которую направлены, внутренние на блоге передают вес другим страницам, а внешние — чужому дяде. В идеале, на главной нужно меньше ссылок и чтобы на неё вело как можно больше ссылок. Вопросы подобного плана можно задавать здесь — http://forum.searchengines.ru/forumdisplay.php?f=25

Автор kitaedz
(@kitaedz)

14 лет, 8 месяцев назад

vituson спасибо. Если сделать карту сайта, то все остальное можно закрыть и не париться.

vituson
(@vituson)

14 лет, 8 месяцев назад

Конечно, у меня именно так и сделано. Только для надёжности вывести карту сайта на отдельную страничку и всё. И ссылки на любые статьи будут в 2-х кликах от главной, что хорошо для индексации.

uspspeli
(@uspspeli)

14 лет, 6 месяцев назад

Начали с файла robots.txt и у меня вопрос к знающим:
Создала файл robots.txt на сайт inmarket-rihter точка info и решила проверить на robots.txt от Yandex и в результате выдал ошибку:
О╩©User-agent: YandexBlog Обнаружена неизвестная директива
Что за чушь? Я перед User-agent: вообще никаких знаков не ставила, в том числе и пробелов нет никаких.

И по поводу карты сайта:
1) Карта сайта у меня от Dagon Design Sitemap
и адрес карты сайта не мойсайт/sitemap, а мойсайт/?page_id=81 Читала, что адрес тоже важен. Так ли это? Ели так, то как можно исправить адрес?
2) Google XML Sitemaps и Dagon Design Sitemap одинаково хороши для индексации и продвижения или какой-то лучше?
3) Dagon Design Sitemap тяжеловат, при заходе на страницу Карта сайта динамически генерит карту каждый раз? Не велика ли нагрузка будет на базу данных и на движек?
Стоит ли скопировать сгенерированную Dagon Design Sitemap Generator карту сайта через просмотр html кода и вставить его в страницу напрямую.
Зараннее благодарна ответившим.

Atrax
(@atrax)

Ethical engineer

14 лет, 6 месяцев назад

1. Настройте постоянные ссылки в админке.
2. Это разные вещи для разных целей.
3. Да, это хорошее решение.

uspspeli
(@uspspeli)

14 лет, 6 месяцев назад

Карту сайта я перенесла с плагина на страницу.
Насчёт второго пункта конечно мало что понятно, но в принципе можно при желании разобраться.
Что касается ссылок, если не трудно уточните пожалуйста — каким образом можно менять названия ссылок? Из предложенных настроек:
День и название
Месяц и название
Числовой
Мне не подходит ни один. Остаётся только
Произвольная структура
но что можно сюда вписать, чтобы страницы приобрели человеко понятные названия так и не поняла. По ссылке если переходить, то там на инглиш лэнгвич, что я не разумею.

uspspeli
(@uspspeli)

14 лет, 6 месяцев назад

А про файл robots.txt кто-нибудь знает — что бы это могло значить?

Создала файл robots.txt на сайт inmarket-rihter точка info и решила проверить на robots.txt от Yandex и в результате выдал ошибку:
О╩©User-agent: YandexBlog Обнаружена неизвестная директива
Что за чушь? Я перед User-agent: вообще никаких знаков не ставила, в том числе и пробелов нет никаких.