Внутренние механизмы Google

Мы проводим много времени в попытках понять, как именно функционируют алгоритмы индексирования Google. В этой статье я сделаю обзор собранных мной из различных источников технологий, используемых данной поисковой системой. Мы будем читать украденный у Google документ с директивами, обсуждать конкретное проявление работы алгоритмов, их кооперацию с человеческими ресурсами (которые именуют себя «экспертами качества»), и что нужно делать, чтобы все остались довольны.

Технические алгоритмы

Скрытое семантическое индексирование LSI

Эта технология представляет собой науку обработки лингвистической информации. Звучит заумно. На самом деле система анализирует связь между словами и отсеивает набитый ключевиками текст, оставляя только естественный контент. LSI, также, понимает синонимизированную связь слов. Например, если смотреть статью об аэроплане, то LSI начнет искать синонимы: самолет, авиастроение. Будут учтены и просто схожие по тематическому смыслу слова, например: турбулентность, топливо, облака и небо. Смысл LSI заключается в обнаружении действительно полезного контента и отсеивании автоматически сгенерированного текста, который используется для манипуляции результатами выдачи. Гугл купил компанию “Appliad Semantics”, которая создала улучшенную версию технологии LSI. Их разработка была интегрирована в AdSense и поисковые алгоритмы. Как вебмастер, пишите естественно и забудьте об устоявшихся мерках типа плотности ключевых слов. Добавляйте синонимы и схожие по смыслу фразы в анкоры.

Тематический уровень

Поисковая система направляет в топ выдачи сайты, используя и другие алгоритмические показатели: Trust Rank и PageRank. Их значения базируются на уважении к Вашему ресурсу среди аналогов. А оно, как известно, составляется из обратных ссылок. Если на Вас ссылаются с авторитетных доменов, но это не сказывается на результатах выдачи, необходимо достать ссылки с нескольких сайтов, которые ТЕМАТИЧЕСКИ твердо устоялись по этому алгоритму. То есть, если проект об Audi, то ссылка с древнего каталога авто будет очень полезной. Другими словами, вам нужны линки с топовых сайтов тематической категории, или же с более авторитетных, чем те, которые ссылаются на ваших конкурентов. А лучшими сайтами, как правило, оказываются не трафик-гиганты, а бывалые проекты, которые стабильно держатся на среднем плаву. Так что финансово это реализуемо.

Анализизатор сайтов и ссылок

В 2005 году корпорация Google запатентовала следующие факторы, влияющие на ранжирование результатов поиска:

  • Срок регистрации домена
  • Смена владельцев домена
  • Данные WHOIS и информация о физическом адресе владельца
  • IP информация
  • Наличие ключевых слов/фраз в домене
  • Срок работы сайта
  • Частота обновления страниц
  • Количество внутренних страниц
  • Текст анкоров
  • Срок нахождения ссылок на определенных позициях
  • Частота изменения и удаления ссылок
  • Наращивание веса внешних ссылок
  • Авторитетность внешних ссылок
  • Качество линков. Общий показатель по сайту
  • Распространение ссылок. Количество и качество ресурсов, на которые они направлены
  • Разнообразие анкоров

Это основные характеристики, полный официальный список на английском можно посмотреть здесь. Конечно, сейчас не 2005 год, но из этой информации можно многое намотать на ус. Большое количество обратных ссылок может негативно изменить отношение поисковика к сайту. Если Гугл не видит естественных линков на ваш проект, то возможность вылета из индекса или «штрафа» значительно увеличивается. Это же правило действует и в обратном порядке. Поисковая система использует специальный алгоритм для определения категории обраток: спамленные или натуральные. Каталоги сайтов – это уже давно спам, например.

Восприимчивый тематический PageRankTSPR

Данный алгоритм структутирует страницы, исходя из тематической взаимосвязи.

Определяющие факторы:

  • Человеческий анализ
  • история поиска
  • наличие в определенной категории DMOZ (да, он используется не только для продажи ссылок с ГС в sape)

При соответствии сайта его категории в Open Directory Project, TSPR может поднять ресурс в выдаче. Стоит заметить, что в Google идет серьезная работа по борьбе с корыстными редакторами каталога. Сайты, которые оттуда выкидывают, получают, в большинстве случаев, смертельную пессимизацию. Пытайтесь получить линк из DMOZ.  Если никак не можете попасть в каталог, займитесь поиском жадных понимающих редакторов, которые помогут за пару десятков долларов. В буржуйнете это делают минимум за пару сотен. Лично я думаю, что этот алгоритм уже не раз менялся, потому что всё получается слишком открыто, но его корни безусловно живы.

Восприимчивый тематический TrustRank

Чтобы понимать работу этой системы, нужно ознакомиться с изначальным понятием Trust Rank, которое использует человевеческие ресурсы. Сотрудники Google анализируют и определяют «важные страницы». Такие ресурсы, назовем их жирными, как правило, содержат много качественного контента, отличный дизайн и независимые авторитетные ссылки на другие сайты. Именно такие линки и передают Trust Rank. Пример сайта, который может это делать в рунете: lenta.ru. Новостной ресурс, который упоминает другие сайты неумышленно. Техничечески, жирная страница X ссылается на страницы  A, B и C, тем самым передавая им равное количество траста. А страницы A, B и C так же смогут передавать этот показатель, но, соответственно, в меньшем количестве. Чем дальше страница от X, тем меньше доверия она получает. TSTR работает по тому же принципу, но использует тематический уклон. DMOZ, Yahoo Directory, ЯК и подобные авторитетные директории могут значительно помочь.

Дополнительный индекс

В эту песочницу попадают сайты, которые лишены доверия Google. Сайты из доп. индекса обычно не просматриваются пауком детально. Результаты выдачи видны только при недостаточном количестве документов в основном индексе. Существуют несколько способов попасть в песочницу:

  • Много обратных ссылок низкого качества
  • Большое количество низкокачественных исходящих ссылок
  • Неуникальный контент
  • Страницы имеют маленькое общее значение PageRank

Нет конкретного способа, чтобы узнать в каком индексе находится ваш ресурс. Если сайт новый, поисковая система стандартно поместит его в дополнительный индекс до той поры, пока он не «отростит бороду» и не обзаведется авторитетными обратными ссылками. Убедитесь, что на сайте нет битых линков и ошибок 404, зачастую это служит причиной перемещения в песочницу.

Определение спама

Каким бы не был сайт, в любом случае, вы получите определенное количество спамерских (черных) обраток. Нет методов борьбы, потому что сейчас это  происходит на естественном уровне. Будьте внимательны в моменты ссылания на другие ресурсы, у «старшего брата» есть алгоритм, который можно назвать «спамерской сетью». Он анализирует входящие и исходящие линки и делает выводы, направляя негативные результаты в песочницу. Аарон Волл констатирует, что одна естественная ссылка равна 40-60 черным, то есть, если на вас ссылаются 60 заспамленных каталогов и 2 хороших сайта уровня ленты или серча, то на самом деле будет засчитан один хороший линк. Цифры, конечно, ориентировочные, но проверенные не одним человеком.

Человеческие алгоритмы

Эксперты качества

Многие западные оптимизаторы заявляют, что Гугл содержит около 10000 сотрудников, которые проверяют результаты выдачи на достоверность и занимаются сайтами, которые по какой-то причине выделены аналитическими алгоритмами. Дэнни Салливан не раз утверждал, что поисковик возвращает к работе человеческие ресурсы, которые исправляют некорректную работу технических алгоритмов. Это «сотрудничество» позволяет добиться прогресса в результатах поиска. Данные черпаются из официального документа Google под названием “Quality Rater Guidelines” (директивы экспертам качества), который попал в паблик после утечки в апреле 2007 года. Документ полон информации, потому чрезвычайно полезен для тех, кто хочет повысить свои позиции в выдаче Google.

Краткий обзор документа «Quality Rater Guidelines»

Около года данная информация бродила по закрытым форумам, но недавно попала в паблик с помощью Search Engine Land. Если хотите прочитать полный вариант на английском, вот ссылка. На страницах этого издания можно найти принцип оценивания страниц, определения спама и классификации поисковых запросов. Я расскажу о ключевых и наиболее полезных деталях данного документа. Эксперты качества оценивают конкретные страницы, а не домены целяком. К примеру, если страница занижена или исключена, то это относится к одному конкретному запросу, а не ко всем сразу. Мэт Катс, к примеру, анализирует полные домены, но в документе четко указано, что аналитики не имеют такой возможности.

Важность страны для релевантности

Это ключевой фактор оценивания Google. На одной из страниц дока есть несложный алгоритм и пример: [запрос], язык (страна). Например “[Окна], русский (Россия)” или “[Окна], русский (Украина).” Другими словами, если русская страница наиболее релевантна запросу, но пользователь находится в Украине, то она будет исключена по географическому признаку в большинстве случаев.

Исследование и понимание запросов

Аналитики обязаны понимать суть каждого запроса: «Вы должны разобраться в запросе перед оцениванием. Если представление туманное, займитесь исследованием и изучением. Вы можете сделать это с помощью анализа выдачи других поисковых систем.» Это подразумевает полное изучение намерений серчера, вместо стандартного соответствия ключевых слов и фраз на сайте. Существуют специальные алгоритмы, доказывающие данную гипотезу: «Иногда вы не уверены в том, как оценить: релеватный или полезный? Релеватный или нерелевантный? Если есть сомнения, оценивайте низко.» Типы запросов не так важны и относительно известны, потому я кратко опишу каждый из них. Навигационный: Это базовый запрос, например ebay или amazon. Релеватными результатами будут официальные страницы компаний. Информационный: Цель – найти информацию и прочитать что-нибудь по заданной теме. Деловой: Пользователь хочет купить товар или скачать нужный файл.

Оценочная шкала

Google классифицирует страницы таким образом:

  • Важная
  • Полезная
  • Релевантная
  • Нерелевантная
  • Оффтопик
Важная страница

Запрос: имеет преобладающее значение и относится к навигационному типу. Страница:результатом поиска является официальная страница продукта или услуги. Примеры:

«Важные» запросы должны иметь официальную страницу в результатах поиска. Когда вы ищите по имени звезды, Google в первую очередь пытается показать официальную страничку как «важный результат». По сути, это брендовый поиск. Но не стоит об этом беспокоиться, если у вас нет сильного бренда. Официальные блоги в социальных сетях (звездные на mail.ru) тоже считаются «важными» и выводятся первично, если это не Лера Масссссква конечно.

Полезная страница

Многие оптимизаторы уверены, что 80% результатов поиска построены из этого типа страниц. Страница считается полезной, если содержит следующие характеристики: удовлетворяющая пользователя, полная информационно, высококачественная и авторитетная. Полезные страницы отвечают конкретно на вопрос: ни широко, ни специфически. Документ, также, содержит типы полезных страниц:

  • страница высокоинформативна
  • своевременный контент
  • страница позволяет пользователю получить желаемое в полном объеме
  • важная внутренняя страница на «правильном» сайте
  • главная страница качественного сайта о специфическом продукте

При идеальном раскладе, оптимизаторы должны целиться именно на определение полезных страниц. Можно сделать общеизвестный вывод: «Контент – это король». Оптимально подстраиваться под категории 1 и 3, которые позволят сделать счастливыми и поисковую систему. и серчеров. А там, видать, осчастливитесь и вы. 🙂

Релевантная страница

Релевантными считаются страницы, которые имеют меньше ценных свойств, чем полезные. Они, как правило, менее содержательны, авторитетны или освещают только один важный аспект вопроса. Если вы читаете SEO блоги и статьи, то обязательно вспомните заезженные слова: «Предоставляйте полезный и релевантный контент посетителям». По сути, так делает каждый приличный сайт, потому этого недостаточно для выделения среди других. Лучше целиться на более узкую нишу, например на «новости Мурманска», а не на «новости России», в ином случае, равных по качеству источников будет море, а полагаться на удачу в нашем деле не стоит.

Нерелевантная страница, Оффтопик и 404

Все типы в заголовке – это одно и то же. Прямолинейно говоря, мусор. Потому что и оффтопик, и страницы, которые не загружаются, в выдачу не попадают. Есть ещё секции: неопределенные, злоумышленные и порнография, но они используются редко, и их обсуждение вряд ли будет существенным (если только вы не занимаетесь порносайтами и размещением вирусов на страницах).

Экспертный центр

В документе есть примерно 15 страниц, посвященных обучению и консультированию новых экспертов качества. Рабочий процесс:

  • Получение заданий
  • Старт оценивания
  • Передача начальной оценки
  • Переоценивание неразрешенных заданий
  • Комментирование

А вот и сама панель оценивания (оригинальное качество изображения оставляет желать лучшего, извините):

Аналитики могут выбирать режим «живой» или «кэшированной» страницы. Это делается для того, чтобы в случае дауна живой, оценивался кэш. Если же и кэша нет, то страница переходит в категорию «404». Отдельные модераторы завершают «нерешенные задания» или те, которые эксперты качества отказались оценивать. Перед отправлением задания в «нерешенные» необходимо написать объяснительный комментарий. А выглядит он так:

Кстати, вот их местный жаргон:

  • V (Важная) – DL (Не загрузилась)
  • Usf (Полезная) – FL (Иностранная)
  • Rel (Релевантная) – MAL (Злоумышленная)
  • NR (Нерелевантная) – PPC (Оплата за клик)
  • OT (Оффтопик)

Что Google считает спамом: «Вебспамом считаются страницы, которые созданы вебмастерами с целью обмана поисковых роботов и посетителей». Поисковая машина воспринимает спам, как врага, даже если страница релевантна и полезна для конкретного поискового запроса. Google констатирует: «Страница может получить высокую оценку, иногда даже «важную», и в то же время быть помечена как спам». После подобной отметки страница уходит «в корзину». Следовательно, если вы пользуетесь черными техниками оптимизации, скачайте документ и почитайте внимательно подробности раздела «спам».

Типы Спама

Вот, что эксперты качества считают спамом:

  • PPC страницы
  • Перехваченные домены
  • Скрытый текст и ссылки
  • JavaScript редиректы
  • Набитые ключевиками страницы
  • — 100% фрейм
  • «Хитрые» редиректы и всплывающие окна

 

PPC Страницы

Такие страницы в большинстве случаев выглядят, как посты блогов. Они всегда замаскированы и глобально окружены рекламными блоками. Контент, как правило, «мыльный». Типы поддельных PPC страниц:

  • Каталоги: да чего уж тут рассказывать, весь рунет завален предложениями о прогонах. Куча рекламы, толку ноль. Яркий пример: web.cn.ua;
  • Блоги: автоматически сгенерированный или содранный контент, покрытый рекламной ветрянкой.
  • Форумы: контент спарсенный с одного или нескольких других форумов. У нас модно красть ответы мэйл/гугл/яндекс и делать из них подобные сайты. Куча страниц, правда, уровень не под сапу.

Гугл отлично справляется с определением дублированного контента. Если же алгоритм не может точно определить происхождение текста, ставится галочка. Потом, как вы уже догадались, аналитик получает заявку и идет оценивать сайт с человеческой точки зрения. Исход процедуры понятен. Используйте Copyscape для своих проектов периодически. Данная класификация не утверждает, что копировать контент нельзя вообще. Если вы раз или два возьмете чужой текст и поставите ссылку на источник, ничего не произойдет. Главное, не переборщить. Короче говоря, небольшой копипаст – это не опасно, если сайт трастовый и имеет достаточный объем собственного уникального контента. В доке указан совет аналитикам: «Осмотрите в первую очередь текст на «компьютерную грамматику». Это в который раз приводит нас к теме лингвистического качества. На форумах оптимизаторов периодически появляются «инновационные» продукты, которые уникализируют текст и проходят проверку copyscape и advego plagiatus. Но никакая машина не сможет заменить тонкую смысловую нагрузку, правильно подобранные синонимы и различные языковые обороты. Говноскрипты, как правило, используют перевод с русского на иностранный, и назад. Попробуйте угадать результат. Я больше склоняюсь к схеме русский > английский > русско-албанский. Но самое смешное, что LSI часто воспринимает такие тексты хорошо. Это настораживает. Как копирайтер, в какой-то мере, я смеюсь над этими энтузиастами, которые верят в долгую службу такого набора символов. Да, хорошие тексты – это дорого, но вылет из индекса – более затратная процедура, поверьте. Google не считает данные категории контента дубликатами:

  • Лирика
  • Поэмы
  • Рингтоны
  • Цитаты
  • Пословицы и поговорки
Перехваченные домены

К этой категории относятся истекшие домены, которые были куплены «мошенником» перед тем, как владелец смог бы их продлить. Таким образом, спамеры размещают их личный контент на сайте и прыгают от счастья, анализируя траст и ссылочную силу домена. К счастью, Google мониторит WHOIS, с легкостью определяет и сопоставляет  дату истечения доменов и радикальное изменение контента. Алгоритм ставит пометку и отправляет данные на человеческий анализ. Аналитикам дано указание использовать waybackmachineorg.com для того, чтобы узнать, как сайт выглядел раньше. После сравнения приходит время анализа текста. А он обычно создан автоматически. Всё, домен отправлен в корзину.

Клоакинг

Если вы новичек в оптимизации, держитесь от него подальше. «Темные джедаи» знают, как извлечь пользу, но я в этом не силен в данный момент, потому советую этим заниматься, только если знаете что, как и зачем. Кратко о методе: страница имеет 2 варианта, один для пользователей, второй для роботов. Каждый получает нужный контент. Уровень риска высок, потому без советов опытных клоакеров не лезьте, а то сайт попадет в спам-секцию.

Набитые ключевиками страницы

Этот метод вообще бесполезен. Сайт пометится для осмотра человеком и, в итоге, вылетит из индекса навсегда. А ради чего жертвы? В любом случае, позиции таким образом поднять, «плотность ключевых слов» — это устаревшее понятие, которое давно ни на что не влияет. Чрезмерное количество ключей только навредит, будьте уверены. Не сорите ими в ALT и IMAGE тэгах, тексте и заголовках. Аналитические алгоритмы точно и оперативно определяют подобную грязь и сразу же выкидывают сайт из выдачи. Сегодня суть SEO заключается в социальном брендинге (ссылки) и критически полезном контенте.

Хитрые редиректы

«Хитрыми перенаправлениями называются перемещения пользователя на разные страницы разных доменов. Во время процесса редиректа, вы сможете заметить автоматический серфинг по нескольким страницам, прежде чем попасть в конечный пункт. Поисковые системы ищут и фиксируют контент на первом домене, в то время, как пользователь попадает на совсем другую страницу. Опять же, вебмастер предоставляет роботу и посетителю разный контент.» Конечно, эксперты качества снижают рейтинг таких сайтов. Но ведь есть ситуации, когда качественные ресурсы переезжают на новый домен по юридической причине, например. Используйте единоразовые дружественные 301 и 304 редиректы. Это поможет не только безопасно перенаправить посетителей, но и передать часть траста новому сайту. Не забудьте убедиться, что данные WHOIS обеих доменов идентичны.

Заключение

Несмотря на многочисленные алгоритмы, поисковую машину можно обмануть. В этом месте эксперты качества «страхуют» выдачу, двигая руками результаты поиска. Указания аналитикам нацелены на поддержание качества сайтов для конечного пользователя, и за это Google можно смело поблагодарить. Владельцам малого онлайн-бизнеса один совет: играйте в SEO по правилам Google – предлагайте юзерам эксклюзивную и отточеную информацию, и результат не заставит себя ждать.

Поделиться:
Telegram
Проекты

Новые статьи

Случайные статьи