- Оптимизация. Первые шаги
- Оптимизация — первые шаги. Выбираем домен
- Оптимизация — первые шаги. А кому это надо?
- Оптимизация. Первые шаги — о чем писать?
- Оптимизация. Первые шаги: семантическое ядро
- Оптимизация: первые шаги. Создаем семантическое ядро
- Оптимизация — первые шаги: план первоочередных задач
- Внутренняя оптимизация: кормим роботов
- Оптимизация: удаляем «битые ссылки»
- Оптимизация. Первые задачи
Вчера я остановился как раз на этом моменте. Поисковый робот зашел на ваш сайт или блог на WordPress, и стал проверять все ссылки и все страницы на вашем сайте. Наткнулся на ссылку, которая в ответ на его запрос выдает с вашего сервера пустую страницу, подставляя текст – “Ошибка 404”. Робот заносит себе в базу данных (в память) информацию и “битой ссылке” как ошибке. Теперь давайте представим:
У вас на начальном этапе сервер генерирует примерно 30-40 страниц (записей около двух десятков). Робот находит среди них 3-4 “битых ссылки”. И так каждый раз. А заходит он тем чаще, чем больше у вас страниц. будет еще чаще заходить, когда вы подставите ему (Яндексу или Гуглу) свой сайт для индексации. И каждый раз, если вы не будете следить за правильно добавленными картинками внешними и внутренними ссылками, заголовками страниц и постов; если вы вдруг захотите сменить URL отображения ваших страниц в браузере и при этом не исправите их правильное написание; если вы смените шаблон вашего сайта на более сложный и не придадите значения изменению внутренней “перелинковки” – робот потеряет часть точной информации, и количество страниц с “битыми ссылками” в его памяти резко возрастет.
Как бороться с “битыми ссылками”?
Во-первых, вам надо на самом раннем этапе вашего блогостроительства создать файл robots.txt и положить его в главной директории вашего Вордпресс-сайта, там, где лежит файл wp-config.php (все знают где он лежит, поэтому вопрос сразу отпадает).
Зачем этот файл нужен и что он означает:
Robots.txt - файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (т.е. иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому. Используется для частичного управления индексированием сайта поисковыми роботами. Этот файл состоит из набора инструкций для поисковых машин, при помощи которых можно задать файлы, страницы или каталоги сайта, которые не должны индексироваться. Файл robots.txt может использоваться для указания расположения файла и может показать, что именно нужно, в первую очередь, проиндексировать поисковому роботу.
Это – описание файла, которое есть у меня на блоге, посвященном Заработку в Сети и СЕО. Раньше подобные статьи я писал там, теперь пишу здесь, а там – только анонсирую. Но в моем блоге – много полезной для вас информации, так что не поленитесь найти время и зайти почитать. Потом скажите – понравилось вам там или нет. Кстати, там есть отличная статья о файле robots.txt и лежит пример такого файла. Ну, а кто не хочет глубоко в это дело вникать, читаем здесь.
Кто внимательно прочитал описание выше, тот наверняка понял, что файл robots служит как-бы проводником роботу поисковой системы по папкам вашего сайта. Робот должен видеть только то, что вы сами хотите ему показать, и, соответственно, НЕ видеть те файлы и папки, которые ему “даром не нужны”. Примеров много, но мы говорим о “битых ссылках”.
Опять, немного в сторону. Вы наверняка знаете, что у самых популярных поисковиков – Яндекса и Google – есть так называемые “панели управления для веб-мастеров”. У вас есть? Нет? Почему? Не понимаете – зачем это надо? В нескольких словах и примерах. Я просто настоятельно советую – зарегистрируйтесь в обеих системах, добавьте ваш блог или сайт, и я вам сейчас покажу один только пример – зачем и почему это вам надо.
Чтобы зарегистрировать свой сайт в Яндексе – надо перейти вот по этой ссылке — http://webmaster.yandex.ru/. Почитайте – Яндекс все отлично вам объяснит, зачем и почему.
Допустим, вы внесли свой сайт в систему, правильно подключили его и Яндекс вам сказал, что в ближайшее время он его проиндексирует. Вы подождали несколько дней, зашли в свою панель управления и увидели, что Яндекс что-то уже добавил в индекс:
На моей картинке примерно так, как будет у вас, разве что страниц у меня будет больше вашего. Робот загрузил себе в память 714 страниц, и только 138 из них находятся в выдаче. Остальные – это в том числе и не рабочие, “битые ссылки”. Давайте откроем и посмотрим:
Я привлекаю ваше внимание красными овалами к трем основным компонентам панели управления сайта:
Слева – Общая информация о всех параметрах сайта, которые хранит робот;
Ввеху – Основная статистика;
Внизу – Временной график количества ошибок и замечаний, выявленных роботом на вашем сайте.
Давайте посмотрим вверху строку Исключено роботом. Сейчас там у меня 248 страниц:
И вот мы находим то, что искали! Ресурс не найден (404) – 51 страница в памяти робота. Давайте посмотрим, что там:
Немного текста вверху – Яндекс хочет вам подсказать, откуда и почему взялась “битая ссылка”, и что в принципе, можно ничего не предпринимать, и со временем информацию из БД Яндекс сотрет, и будет все “тип-топ”. Но! Ведь за каждой ссылкой, которую вы видите, раньше лежала статья. Например, об отдыхе с детьми в Турции (напомню, что в качестве примера я все время использую свой блог о путешествиях, созданный мной год назад). Я знаю, что примерно пол-года назад я переезжал с бесплатного хостинга на платный, я не смог перенести архив базы данных и мне пришлось вручную все менять. Поэтому вся информация, которая хранилась на тот момент у поисковиков, стала “битой”, так как поменялись уникальные ID записей. То, что вы видите на картинке выше, а именно – ссылки на статьи. И посетители поисковой системы Яндекс, которые пытаются найти информацию об отдыхе с детьми в Турции, еще получают в выдаче мою ссылку, переходят по ней и видят такое:
Я своевременно позаботился о своих посетителях, которые не попали сразу на нужную им страницу, изменил дизайн файла 404.php и дополнил его формой поиска по сайту, объяснил – почему они не видят нужную им страницу.
Но это только пол-дела. С одной стороны – я не теряю посетителей через поисковый траффик (а он у вас будет единственным как и у любого начинающего, вряд ли вы сразу начнете тратить большие деньги на рекламный бюджет и продвижение через социалки и контекстную рекламу). А с другой – надо потихоньку самому закрывать эти “битые ссылки”. Самому – в смысле – дополнить файл robots.txt нужной информацией.
У меня в блоге – Как заработать в Сети – есть статья, так и называется: “Правильный robots.txt для WordPress”. Там – текст файла. Возьмите, скопируйте, создайте текстовый файл с таким именем и добавьте этот текст:
Но ни один правильный файл robots.txt не может все аспекты и нюансы вашей работы, и иногда – ваших “кривых рук” (и моих в том числе). Поэтому, возвращаясь мысленно к тому списку ссылок, которые мне выдал Яндекс, я открываю файл robots.txt на своем блоге о путешествиях и методом “копи-паст” (этот метод я ставлю на один уровень с изобретением колеса!) добавляю вот такие строки для поискового робота Яндекс:
Disallow: /archives/110
Disallow: /archives/119
Disallow: /archives/130
Disallow: /archives/133
И так далее, все 51 “битую ссылку” из Яндекс – вебмастер, моей панели управления (см. картинку выше). Тем самым, я закрываю доступ Яндексу к этим ссылкам, запрещаю ему их индексировать (или пытаться это сделать), снижаю удельный вес битых ссылок на сайте, увеличиваю соотношение всех страниц, загруженных роботом, к страницам в выдаче. Что в глазах робота придает “веса” моего сайту. И, как вариант, увеличивает потенциал роста рейтинга и роста в поисковой выдаче.
Возможно, кто-то, прочитав мою довольно короткую статью о способе борьбы с “битыми ссылками”, подумает или произнесет вслух: “Да разве только это способ борьбы! Есть еще другие и не менее важные!”. Да, есть. Но чтобы описать все, надо писать книгу. А книг уже написано – много.
Если вы сделаете хотя бы вот это действие, о котором я вам рассказал в своих статьях сегодня и вчера, вы поможете себе и роботу процентов на 80 улучшить оптимизацию своего сайта. А 80% – это не мало…
Будут вопросы, отзывы, советы – пишите в комментариях.
Хотите следить за новыми публикациями на моем сайте – подпишитесь на RSS ленту.
Информационный партнер и не только: site-by-site.ru — разработка сайтов. Сказал бы, что мои конкуренты, но… У них — своя свадьба — у меня своя. Хорошие у них работы, сходите хотя бы посмотрите.






Свободный блогер
28.11.2011
Благодарю за ответ. Гугл бот уже исключил странички из панели вебмастеров, жду Яшу ))
Свободный блогер
26.11.2011
Не могу понять, подскажите как сделать так, чтобы битые ссылки пропали из панели вебмастера? Вроде бы прописал путь к этим страницам в robots.txt а они из панели не пропадают…
п.с. и спасибо за материал
admin
28.11.2011
Сразу не пропадут, пока робот не обойдет все страницы и не удалит из своей «памяти» закрытые страницы.
Надежда
08.06.2010
Спасибо. Однако позволю себе спросить «в лоб». Я вставляю в robots.txt строку:
Disallow: http://www.compgramotnost.ru/zachem-nuzno-osvoit-computer
Так Гоша поймет? Гоша почему-то «потерял » категорию и ссылается напрямую на пост.
admin
08.06.2010
Нет, полную ссылку ему писать не надо, он знает, если стоит слэш, — это ссылка на ресурс, напишите вот так:
Disallow: /zachem-nuzno-osvoit-computer
Этого вполне достаточно и так корректно.
А потерял категорию…. Скорее всего, вы в момент создания поста могли его сохранить без привязки к рубрике, а потом исправили. Как вариант.
Надежда
08.06.2010
Понимаю, что много вопросов задаю. Но надеюсь, что это последний. Если так написать
Disallow: /zachem-nuzno-osvoit-computer
тогда здесь нет категории, а сразу ссылка на пост. Не получится, что Гоша «пролетит» мимо поста? Так он 18 постов не проиндексирует (18 битых ссылок без категорий).
Кстати, спасибо, что пояснили, что бывает, если пост сохранить без привязки к категории, а потом вдруг спохватиться. Я как-то не думала о таких последствиях.
admin
08.06.2010
Нет, все будет нормально. Вы закроете ему путь к «битой» ссылке, ведь он вам сам показал ее, точнее, подсказал
, или захотим добавить к нему в конце blabla.html…. Роботы их не знают, начнут делать переиндексацию страниц, по «красивым» им ссылки будут открываться, а по старым — нет, будет ошибка 404. Представьте себе, сколько сразу у вас появится битых? Практически, весь сайт!
У вас есть нормальная ссылка с категорией к этому посту, зачем же ее закрывать от индексации?
Все, что Гугл показывает как ссылки ведущие к ошибке 404 — битые, и их стоит сразу закрыть, он тогда сразу их исключит из своего списка ссылок на вашем сайте.
Основная масса неправильных (битых) ссылок возникает при наших ошибках. Об одной я вам в комментарии сказал, о других — писал в статье, когда, например, мы решили поменять URL типа /?p=15 на «красивый», вроде такого как у вас
Поэтому тем, кто меняет по-ходу свои УРЛы на красивые, надо это понимать и думать…
Надежда
08.06.2010
Спасибо!!! У вас прям талант педагогический!
admin
08.06.2010
талант не талант… не знаю, но когда-то опыт преподавания был
Надежда
08.06.2010
Спасибо, с Яндексом с вашей помощью разобралась (благодаря скриншотам в статье), в robots.txt внесла две битых ссылки. С Гошей — у меня хуже, там 18 битых ссылок. Куда их добавлять в robots.txt: в конце User-agent, т.е. после Disallow: /*?
И в каком виде вносить, прямо как у Гоши, начиная с http://www…………?
Или для Гоши все это не надо делать, он их сам удаляет через какое-то время?
admin
08.06.2010
C Гошей также как и с Яшей
Сначала надо найти именно «битые» ссылки в Гоше, он их показывает также как и Яндекс в своей панели управления для веб-мастера.
И точно также создать строку Disallow: — и закрыть эту ссылку, а если правильно всмотреться во все ссылки, возможно, что и всю директорию какую-нибудь можно закрыть от индексации. Но лучше закрыть каждую «битую» по одной. И ничего страшного, если ваш файл robots.txt при этом сильно вырастет. Робот разберется.
Оба робота их сами удаляют через некоторое время. Но это время может растянуться на месяцы, зачем вам, чтобы робот подсовывал посетителям нерабочие ссылки и приводил их на страницу 404?