Как да избегнем дублирано съдържание на сайта си?

Newtrend.bg, позната през последните 8 години като медия, водена от екип специалисти с маркетинг опит, се превръща официално в Консултантска и Маркетинг аутсорсинг Агенция, която съчетава техните най-силни страни, опитa, натрупан през годините и визията им за устойчив бизнес и иновации. Медийните контакти и ноу-хау ще бъдат използвани в полза на "Наръчниците за родители на дигитални деца", един проект на Фондация "Дигиталните деца", зад чиято реализация Newtrend застава еднолично.
Google остава основната търсачка на Firefox за още 3 години
Google остава основната търсачка на Firefox за още 3 години
21.12.2011
Снимка: Search Engine Land
Google си навлече проблеми с платени Google Chrome публикации
04.01.2012

Как да избегнем дублирано съдържание на сайта си?

google-algorithm

В последните 2 години, дублираното съдържание се оказа един от най-големите бичове за съвременните уебмастъри. И въпреки че от Google правят доста промени в алгоритъма, задачата по отстраняване на този нежелан проблем остава в ръцете на управляващите сайта.

duplicate-content

Какво е дублирано съдържание?

Това са всички страници с идентично или близко съдържание на други такива в самия сайт.

Дублирано съдържание в един сайт може да се появи поради няколко причини:

1. Използване на www версия на сайта, както и на такава без www. Може да се каже, че това е най-малкият проблем, защото точно в тази насока Google се справят горе-долу добре. Все пак, за да не оставяме избора на машинен алгоритъм, може да използвате следните два реда код във вашия .htaccess файл:

RewriteCond %{HTTP_HOST} ^(.+)\.vashdomain.com$ [NC]
RewriteRule ^(.*) http://vashdomain.com/$1 [R=301,L]

Имайте предвид, че тази директива може да се напише по още няколко начина. Също така, ако пренасочвате от версия без www към такава с www, трябва да ползвате:

RewriteCond %{HTTP_HOST} !^vashdomain.com$ [NC]
RewriteRule ^(.*) http://www.vashdomain.com/$1 [R=301,L]

Може да укажете и в Google Webmaster Tools коя версия на сайта предпочитате да ползвате, но опитът показва, че e по-добре контролът да е във ваши ръце.

2. Програмистите често указват началната страница на сайта като / , /index.php , /index.html , /index.jsp и всякакви подобни варианти. Това, разбира се, създава дублирани страници на началната на вашия сайт. От това положение също има изход, особено ако не ви се “почиства” след погромистите (опс, програмистите).

В гореспоменатия .htaccess файл слагате кода:
RewriteCond %{THE_REQUEST} /index\.php\ HTTP/
RewriteRule ^index\.php$ / [R=301,L]

Моля, имайте предвид, че за Java базирани сайтове това не е решение.

3. Дублирано съдържание поради използване на параметри/сесии в URL. Още един от пропуските на любимите ми колеги – програмистите. Често (и в повечето случаи ненужно) програмистите изплющяват по някой друг параметър в URL, защото така е по-лесно. Примерно след някакво търсене в сайта, за да “запомнят” избор, който сте направили в сайта (валута, местоположение, др.), но в крайна сметка, страницата, която Google ботът “вижда” е идентична на “оригиналната”.

Какво може да се направи в подобен случай?

a) Учтиво молите програмистите да си свършат съвестно работата, отправяте молитви към Всевишния да им налее малко разум и правите курбан за здраве (не тяхното, за вашето – високото кръвно при този вариант е гарантирано!)
б) Обръщате се към canonical тага (http://www.google.com/support/webmasters/bin/answer.py?answer=139394). Имайте предвид, че действието му е препоръчително (за разлика от robots.txt, където е задължително), но в един по-дълъг период от време (2-3 месеца) Google се съобразява с него и ви осигурява спокоен сън и спестени пари от курбан.

4. Има случаи, когато програмистите нямат вина за дублираното съдържание (изненада :)). Това са списъци с резултати от търсене, списъци от етикети, категории, архиви и други автоматично генерирани страници. Често, когато тези списъци са големи, се налага странициране, което евентуално може да наложи подреждане на тези списъци по дата, азбучен ред и други признаци. Този тип новогенерирани страници също се счита от Google за дублирано съдържание.

Тук решенията са няколко:

  • Използване на canonical, както в предходния пример.
  • Използване на noindex, follow мета таг в дублираните страници
  • Използване на rel=“next” and rel=“prev” при странициране http://googlewebmastercentral.blogspot.com/2011/09/pagination-with-relne…
  • Използване на JavaScript линкове (при странициране)
  • Комбинация от горните 4 метода

5. Дублирано съдържание при системите за управление на съдържанието чрез екстри като принтирай тази страница, изтегли в PDF формат и др. На пазара има голямо количество безплатни системи за управление на съдържанието. Независимо дали са безплатни или платени, всички те имат общ недостатък – генерират дублирани страници чрез екстри като принтирай тази страница (виж в текстов формат), изтегли в PDF формат. Всички тези екстри са вероятно полезни за потребителите, но определено създават неприятности на уебмастърите.

Решението

Всички от методите в предходната точка без третото. Ще кажете: добре де, как аджеба се слага canonical или nonidex на тесктови, XML, PDF или други подобни страници? Много просто – чрез ползване на htaccess файл (http://googlewebmastercentral.blogspot.com/2011/06/supporting-relcanonic… и http://code.google.com/web/controlcrawlindex/docs/robots_meta_tag.html), а ако генерирате PDF, DOC, TXT или XML файловете динамично, може да зададете Headers в самия файл.

6. Друга причина за дублирано съдържание са и едноезични страници, предназначени за различни държави. Например, страници на английски, но насочени към потребители от Великобритания, САЩ, Австралия и т.н. Това е интересен случай, който заслужава отделна тема. Накратко бих препоръчал за всяка държава да се напишат различни и уникални текстове съобразени с културните особености, характерни за всяка. Ако все пак нямате възможност да пишете статии за различните страни, от скоро гугъл предлага да „каноникализирате“ един от езиците с помощта на атрибутите rel=“alternate“ hreflang=“x“ (http://www.google.com/support/webmasters/bin/answer.py?answer=189077). В този случай Гугъл препоръчват съвместно ползване с rel=“canonical“ или redirect 301.

7. Един рядко срещан проблем с дублираното съдържание е линкване към страници от сайта, които не съществуват. Как става това?

  • Някой слага линк, но пише адреса по памет и го греши;
  • Агрегатори, които съкращават URL адресите;
  • Други причини;

Решението е просто. В .htaccess файла в самото начало пишете:

ErrorDocument 404 http://vashdomain.com/

или

ErrorDocument 404 http://vashdomain.com/404.php

В първия случай ще пренасочите всички грешни адреси към началната страница на сайта си, а във втория – към специално създадена страница, в която пишете, че потребителят е попаднал на грешното място и му предлагате да отиде на друго в сайта.

N.B.Никога не ползвайте варианта по-долу:

ErrorDocument 404 /nqkakva_stranica.php

Чрез този вариант сами ще си създадете дублирано съдържание, тъй като винаги на мястото на сгрешен адрес ще се показва nqkakva_stranica.php. Ако имате повече сгрешени линкове, ще имате съответно повече еднакви страници с различни URL т.е. ще си създадете дублирано съдържание.

8. Към не толкова често срещаните варианти за създаване на дублирано съдържание спада и този. Да кажем сте направили поддомейн уайлдкард на определен домейн. По някаква причина Гугъл започва да индексира страници от несъществуващи поддомейни, при което дублираните страници започват да никнат като гъби след дъжд. Единственото решение е да пренасочите с редирект 301 страниците от несъществуващите поддомейни към „правилните“. Може да използвате и каноникъл, но нещата ще се оправят доста по-бавно.

Често ме питат защо не препоръчвам използването на robots.txt за забрана за индексиране. Отговорът е прост – robots.txt не може да забрани индексацията на дадена страница, а само обхождането й от бота. С други думи, ако вие сте забранили определени страници с robots.txt, но има линкове към тях, страницата ще продължи да стои в индекса и то по доста грозен начин – с липсващ снипет.

Не претендирам да съм изчерпал всички варианти за създаване на дублирано съдържание (въображението на програмистите е безкрайно, но със сигурност съм дал повечето варианти за справяне с него.

The following two tabs change content below.
Пламен Томов е специалист в областта на SEO, Интернет маркетинг, програмиране и др. ИТ теми. Съосновател и и съсобственик на популярния кулинарен сайт bgkulinar.net.

Коментари

коментара

2 Comments

  1. Много, много полезна информация. Проблемът с дублираното съдържание е доста голям и трябва да се внимава изключително много.

  2. Борман казва:

    Тази статия, макар и писана преди година и половина, сега важи с пълна сила при последните промени на алгоритмите на най-голямата търсачка! Благодаря, съветите наистина са полезни!

Вашият коментар

Вашият имейл адрес няма да бъде публикуван. Задължителните полета са отбелязани с *

css.php