3 Способа уникализации текста

уникализация текста

Сегодня мы поговорим о способах уникализации текста на сайте. Для тех, кто зарабатывает на собственных сайтах в интернете, эта проблема хорошо знакома.

По сути путей получения контента для своего сайта немного: во-первых, его можно написать самому, во-вторых заплатить за его создание, в-третьих взять готовый контент с других сайтов.

Ну можно еще заставить посетителей сайта генерировать контент, но этот способ имеет ограниченное применение

Понятно, что самому контента много не напишешь, это слишком трудоемко. Покупать контент — это конечно хороший вариант, если у Вас уже есть деньги, и Вы готовы вкладывать их в свой проект. Для тех кто только начинает зарабатывать в интернете это конечно неприемлимо.

Именно в силу этих причин Рунет сейчас буквально забит копированным контентом. Любая мало-мальски востребованная статья растащена на десятки сайтов, так что иногда даже невозможно определить первоисточник.

Сегодня речь пойдет о конкретных способах уникализации контента с целью избежания склейки страниц поисковыми системами.

Я не буду обсуждать вопросы хорошо или плохо копировать контент с других сайтов. Тем, кто по принципиальным, морально-этическим и прочим соображениям не может или не хочет заимствовать контент с других сайтов, дальше читать нечего. Для Вас здесь не будет ничего интересного.

Для чего все это нужна вся эта уникализация? Существует несколько задач, где это может быть применимо, например:

  • Во-первых, если мы хотим в ручном режиме наполнить свой сайт несколькими тематическими статьями
  • Во-вторых, при создании сайтов с помощью скриптов-грабберов, которые автоматически копируют контент с других сайтов и размещают его на своем сайте. Это может быть как самостоятельный сайт, целиком состоящий из контента, скопированного граббером, так и просто раздел на каком-либо сайте.
  • В-третьих, при создании партнерских интернет-магазинов. Если мы используем готовый скрипт интернет-магазина или закачиваем базу товаров из XML, то понятно, что все описания товаров в таком партнерском магазине будут неуникальными и нужно думать как избежать склейки.

В целом, можно выделить три вида способов уникализации:

  • Во-впервых, ручная уникализация текста. То есть берем и ручками редактируем. Конечно это применимо при небольшом количестве статей.
  • Во-вторых, автоматическая уникализация текста. В основном применяется при использовании грабберов, можно также применять и при импорте базы партнерского магазина. Основная проблема здесь в том, чтобы сделать это, не испортив текст. То есть текст должен остаться читаемым. Для русского языка сделать это достаточно сложно, для английского попроще.
  • В-третьих, способы, связанные не с изменением самого копируемого текста, а с изменением структуры самого сайта.

Уникализация текста вручную

При уникализации текста вручную задача состоит в том, чтобы с минимальными усилиями добиться того, чтобы ПС считали текст уникальным. В идеале делается полный рерайт статьи, то есть проще говоря статья пересказывается заново своими словами — очень похоже на изложение в школе. Но это конечно слишком долго, усилия совсем не минимальны, и на самом деле это просто не нужно.

Я видел очень разные оценки по поводу того, насколько сильно нужно менять текст — разные люди называют цифры от 5% до 70%. Конечно чем больше, тем лучше, но если цель просто в том, чтобы попасть в индекс, то достаточно 5%-10% изменений в самом тексте плюс правильная структура сайта (о структуре сайта мы поговорим в Части 4). Однако, чем больше изменений, тем лучше будет ранжироваться сайт по соответствующим запросам.

Как же лучше менять текст?

  • Замена на синонимы, перефразирование, изменение структуры предложений. Простая замена слов на синонимы — не самый эффективный способ, т.к. текст при этом меняется очень слабо, намного эффективнее переделывать все предложение, изменяя его структуру как можно сильнее. Есть также мнение, которому лично я склонен верить, что очень эффективно менять количество предложений, т.е. объединять несколько предложений в одно, или, наоборот, разбивать длинные предложения на несколько. Поисковики анализируют текст в том числе и по предложениям, поэтому такие изменения должны быть эффективны. Очень часто в тексте можно переставить предложения, т.е. изменить их порядок — это тоже весьма эффективно. Изменять предложения и перефразировать нужно стараться равномерно по всему тексту.
  • Изменение заголовка текста и названия страницы. Очень желательно поменять заголовок текста (то что обычно заключено в тег H1) и название (title) страницы.
  • Изменение заголовков в тексте. Если в тексте есть подзаголовки, заключенные в теги Hn, то их тоже очень желательно поменять, можно также выкинуть часть подзаголовков или добавить новые. Если подзаголовков вообще нет в исходном тексте, то их можно добавить.
  • Изменение первого и последнего абзацев. Считается, что особенно важно как можно сильнее изменить первый и последний абзац в тексте. В идеале их можно переписать полностью или вообще добавить новые абзацы в начало и в конец текста.
  • Изменение порядка следования абзацев. Очень эффективно менять абзацы местами. Как ни странно во многих текстах это можно сделать очень часто без ущерба для читаемости текста.
  • Перемешивание нескольких статей. Это мой самый любимый и один из лучших способов сделать уникальный текст. Смысл в том, что берется две (или более) статьи по одной тематике и из них составляется новая. Проще всего это делать абзацами, т.е. часть абзацев берется из одной статьи, а часть из другой, в перемешку. Если статьи по одной тематике, то сделать это не сложно и текст получается вполне связный и читаемый. Самый примитивный вариант — взять первую половину из одной статьи, а вторую половину из другой, или даже просто тупо склеить две статьи. Даже такой вариант практически не распознается поисковиками как неуникальный, а уж если абзацы двух статей перемешать, то это вообще беспроигрышный вариант.
  • Изменение порядка следования пунктов в списках. Смысл здесь в том, что очень часто пункты в списках можно переставить местами без ущерба для текста. Особенно это касается ненумерованных списков.
  • Изменение разбивки статьи на страницы. Если в оригинале статья разбита на сайте на несколько страниц, то их можно объединить. Или, наоборот, если статья длинная, ее можно разбить на несколько страницы на сайте.
  • Никаких ссылок на источник. Это простой, но очень важный пункт. Нельзя ставить никаких ссылок на источник статьи — ни активных, ни через редирект, ни даже просто адрес сайта в виде текста. Почему? Даже в рамках одной тематики, поиск нечетких дублей слишком ресурсоемкая задача, т.к. текстов по той же тематике может быть слишком много и понятно что ни о каком полном переборе не может быть речи. Теперь угадайте, что будет, если Вы сами покажете пальцем Яндексу и Гуглу, откуда Вы взяли свою статью. Не сравнить Вашу статью с источником, на который Вы сами же указываете, было бы очень глупо со стороны ПС. Именно поэтому никаких ссылок на источник ставить не надо. Если Вы беспокоитесь по поводу авторских прав и т.п., то займитесь чем-нибудь другим, зачем Вы вообще эту статью читаете?

Автоматические методы уникализации и грабберы

В предыдущей главе мы говорили о том, как делать контент уникальным вручную. Все бы хорошо, но это слишком трудозатратно. Конечно времени тратится намного меньше, чем на написание контента с нуля, но все равно уникализировать контент ручками в сколько-нибудь серьезных количествах получается долго и муторно.

Естественно возникает идея написать скрипт, который будет делать это автоматом.

Но задача эта непростая. Сразу скажу, что интересны методы, которые меняют текст, делая его уникальным, но при этом текст остается читаемым. Изуродовать текст так, чтобы он был суперуникальным, но при этом представлял из себя полный бред, несложно, но нам это не нужно.

Для чего все это нужно? Как правило, задача автоматической уникализации контента возникает при использовании так называемых грабберов.

Граббер — это скрипт, который автоматически заходит на заданные сайты, опять же автоматически тырит заимствует оттуда контент и выкладывает на вашем сайте.

В результате получается готовый говносайтсайт с заимствованным контентом. Кроме полноценного сайта, с помощью такой технологии можно также организовать раздел со статьями или новостями на каком-либо сайте.

Грабберов существует достаточно много. Самые примитивные просто берут RSS с других сайтов, более крутые умеют по ссылке из RSS выдирать статью целиком (ведь в RSS чаще всего только анонсы) или парсить сам код страницы и выдирать из него текст статьи для тех сайтов, у которых экспорта в RSS нет вообще. В качестве примера грабберов можно привести NewsGrabber, граббер Вадима Ласто, NewsGrabberJC (это компонент для Joomla).

Понятно что сам по себе граббленый (блин слово то какое:) ) контент абсолютно неуникален и благополучно выкидывается из выдачи поисковыми системами. Однако если такой граббер будет уметь хотя бы немного уникализировать контент, то такой сайт будет иметь шанс.

Как же это делается?

  • Замена по словарю — наиболее очевидный способ. Для использования нужен словарь синонимов. С помощью этого словаря слова заменяются на синонимы. Здесь есть две сложности. Во-первых, нужен хороший словарь. Я видел очень много готовых словарей, но пригодных для использования из них считанные единицы. Большинство словарей представляют собой оцифрованные бумажные словари синонимов. Такие словари практически непригодны, так как не учитывают то многие слова являются синонимами только в некоторых контекстах и их не всегда можно заменять одно на другое. Фактически хороший словарь для граббера должен составляться вручную, что требует очень много времени. Во-вторых, возникают проблемы с всевозможными словоформами (падежи, склонения, времена и прочее). В английском языке (и видимо в большинстве латинских языков) все достаточно просто, там словоформ намного меньше, но в русском это большая проблема. Сделать алгоритм, учитывающий все словоформы в русском языке наверное можно, но это очень сложно. Более простой выход забивать в словарь все словоформы или регулярные выражения, которые эти словоформы учитывают. При этом менять можно только слова, у которых словоформы строятся одинаково. Опять же такой словарь составляется только вручную.Нужно также заметить, что помимо отдельных слов имеет смысл заменять по словарю устойчивые выражения из нескольких слов.
  • Добавление куска текста из заданного набора в начало или конец изменяемого текста. Если тематика всех текстов на сайте одна и та же, то можно написать несколько стандартных вариантов втуплений и заключений и добавлять их к тексту по рандому.
  • Добавление текстовых объявлений в начало/конец/середину изменяемого текста. В качестве таких тектовых объявлений может быть текстовая реклама каких-нибудь партнерок по тематике сайта, анонсы других статей и т.п. Если вставляется реклама, то она обязательно должна быть текстовая, javascript (например adsense или бегун) по понятным причинам не подойдет.
  • Добавление в заголовок текста и title страницы своих фраз из заданного набора. В прошлой статье я уже писал, что очень важно менять заголовки в тексте и название страницы. Это простой способ изменять их автоматически.
  • Исключение ненужной разметки — лишние теги, ссылки, картинки и т.п. — это нужно делать всегда, прежде всего удалять ненужные ссылки. Картинки должны либо скачиваться автоматически на свой сайт, либо удаляться. Ссылок на картинки на сайте, откуда взят текст конечно быть не должно.
  • Добавление внутренних тегов в слова — например в исходном тексте было <b>уникализация</b>, а в конечном тексте будет <b>уникали</b><b>зация</b>
  • Манипуляция тегами <noindex> — отдельные куски текста по рандому обрамляем тегами <noindex>. В результате эти куски текста не будут индексироваться и Яндекс будет “видеть” не весь текст. Работает только для Яндекса конечно.
  • Замена некоторых букв на похожие по написанию латинские— например буквы о, р, с, к и т.д. Все они имеют такие же по написанию латинские буквы. Для пользователя текст будет выглядеть также, а для ПС уже по-другому. Главное не переборщить — не надо менять все буквы, иначе изменятся все ключевые слова и трафика на такую страницу не будет
  • Перемешивание слов идущих подряд через запятую — обычно если в тексте идет большое количество слов (от 4) подряд через запятую, то это представляет собой перечисление каких-то понятий и в 99% случаев порядок в таком перечислении не важен. Поэтому такие слова можно перемешивать.
  • Перемешивание пунктов в ненумерованных списках — аналогично предыдущему пункту в ненумерованных списках можно перемешивать пункты.

И напоследок несколько слов о способах, которые часто встречаются в различных готовых скриптах, но толку от них никакого. Причина для всех этих способов одна — текст в результате получается абсолютно нечитаемый, а точнее представляет из себя полный бред.

  • Автоматическое перемешивание абзацев/предложений — автоматически меняются местами абзацы в тексте или как вариант предложения внутри абзаца. Понятно что получится полный бред.
  • Автоматический микс двух статей — берутся две (или еще круче — несколько) статьи и из них составляется новая статься, в которой вперемешку идут абзацы из первой и второй статьи. Все это суперуникально, но читать невозможно.
  • Автоперевод — текст автоматически переводится с одного языка на другой. Кто хоть раз пользовался автоматическим переводчиком, тот знает какой бред обычно получается, особенно для русского языка.

Конечно, при наличии фантазии способов можно придумать много, но тех которые здесь описаны вполне достаточно. При комбинации нескольких методов и правильном построении сайта вполне можно добиться нормальной индексации.

Изменение структуры сайта

Помимо изменения самого текста, есть несколько советов по созданию структуры сайта, которые помогут поисковикам считать страницы сайта уникальными.

Прежде всего эти приемы полезны при наличии большого числа неуникальных текстов на сайте, которые невозможно обработать вручную, например сайты, сделанные с помощью граббера или партнерские магазины, в которых описания товаров импортированы из xml и потому неуникальны.

  • Нужно по максимуму насытить страницу сайта различным текстом, помимо основного текста статьи. Например анонсы наиболее популярных статей на сайте, анонсы статей по рэндому, текстовая реклама, просто какой-нибудь статичный текст по тематике, словом все что придет в голову. Что касается анонсов других статей на сайте, то это должны быть именно анонсы, а не просто ссылки на статьи, т.е. они должны содержать кусок текста статьи. В любой нормальной CMS есть готовые модули, позволяющие добавить на сайт такие анонсы.
    Считается, что поисковые системы хорошо умеют отличать где находится основная часть страницы, а где всевозможные довески (меню, боковые колонки, хедер, футер и т.п.), тем не менее мои эксперименты с несколькими сайтами, сделанными с помощью граббера показали что элементарное добавление модуля с анонсами 7-10 статей с сайта в боковую колонку заметно увеличивает количество проиндексированных страниц. Еще лучше добавлять анонсы не в боковую колонку, а прямо под статьей. Т.е. текст анонсов в коде страницы будет прямым продолжением текста статьи, при этом желательно чтобы между текстом статьи и анонсами не было заголовков, оформленных тегом <Hn>, названия статей можно просто оформить жирным шрифтом. В результате текст статьи и анонсы воспринимаются как единый текст.
  • Сделайте уникальные теги description и keywords, генерируемые автоматически по тексту для каждой страницы. Заголовок (title) тоже желательно сделать уникальным. Конечно автоматически сгенерировать осмысленный заголовок не получится, поэтому нужно хотя бы сделать чтобы к заголовку добавлялось название сайта.
  • На многих сайтах имеет смысл включить для пользователей возможность оставлять комментарии. Много текста они конечно не добавят, по крайней мере не сразу, но отказываться от этого не стоит. Тем более что в большинстве CMS включить их совсем несложно.
  • Если речь идет о сайтах с большим количеством заимствованных статей, не стОит ограничиваться одним источником. Чем больше будет таких источников, тем лучше.
  • Если речь идет о партнерском магазине, помимо описаний товаров добавьте 10-20 статей по тематике, их можно уникализировать вручную. Анонсы этих статей опять же можно вывести на каждой странице сайта.
  • Очень желательно чтобы сама структура сайта и структура урлов отличалась от сайта оригинала. В первую очередь это касается партнерских интернет магазинов.

И, напоследок, поговорим об авторских правах. Строго говоря, копирование контента с другого сайта является нарушением авторских прав.

Хотя на практике никто с этими правами не заморачивается. Кроме того, некоторые статьи настолько широко разошлись по интернету, что понять какой сайт является первоисточником просто невозможно.

Кажется где-то год или два назад проскакивала новость о том, что какое-то крупное интернет издание осудило владельца сайта на небольшой штраф за незаконное использование материала с сайта этого интернет издания.

Специально для этой статьи хотел найти ссылку на эту новость, но так и не нашел. Других упоминаний о каких-либо серьезных последствиях копирования материалов в интернет мне неизвестно. Ну разве что хостеру могут пожаловаться. В любом случае есть ряд простых правил, которые помогут избежать проблем:

  • Не стоит копировать статьи с крупных новостных порталов, сайтов крупных коммерческих компаний и т.п. Толку от такого копирования все равно будет меньше, а вероятность огрести проблем на свою задницу намного выше.
  • Иногда попадаются извращенцы, которые все же пишут гневные письма с просьбой поставить ссылку на оригинал или убрать копированную статью с вашего сайта. Меня всегда удивляло — неужели людям не жалко тратить свое время на поиски сайтов, которые чего-то там у них скопировали, написание гневных писем и отслеживание результата. Тем более, что пользы от этого занятия практически никакой. Или может они внешние ссылки таким оригинальным способом наращивают? В любом случае, такие письма иногда приходят, проще всего не спорить и убрать статью с сайта или заменить ее на другую.

 

Сохраните, чтобы не потерять!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *