Аналитика и полезная информация

Каталожные критерии. К каталожным критериям можно отнести индекс цитирования "Яндекса" (citation index, CY) и алгоритм выдачи результатов поиска "Рамблера". В

Аналитика и полезная информация

Информация

Реклама и PR

Другие материалы по предмету

Реклама и PR

Сдать работу со 100% гаранией
ем ранжируют страницы, исходя из предположения, что вебмастера создавали и структурировали их в расчете на "живых" посетителей.

Распределение частот поисковых запросов. Вебмастера и поисковые системы. Спамдексинг

Поисковые запросы повторяются. Разные люди, в разных городах, в разное время и в разные поисковики вводят одни и те же поисковые запросы: работа, чат, секс, mp3, windows, линукс и др. Частоту использования каждого запроса можно подсчитать. Некоторые встречаются в среднем раз в неделю, а есть и такие, что ежедневно повторяются сотни раз. Чем длиннее запрос, тем реже он встречается. И наоборот, наиболее частотным запросом из группы, относящейся к какой-либо теме, всегда является наиболее общий запрос - одно слово или словосочетание, определяющее тему.

Поисковые системы сегодня стали основным поставщиком новых пользователей на любой интернет-ресурс, и вебмастера это прекрасно знают. Знают и закономерности спроса. Вебмастер, поддерживающий сайт по трудоустройству, например, в Санкт-Петербурге, безусловно осведомлен, что запрос работа встречается гораздо чаще, чем работа в Питере. Но нечеткий однословный запрос работа используют не только питерцы, но и москвичи, новосибирцы, казанцы... Поэтому вебмастерам сайтов по трудоустройству каждого из этих городов хочется попасть на первую страницу поиска именно по "главному" однословному запросу. Но городов много, а на первой странице результатов может разместиться всего лишь 15-20 ссылок.

С целью улучшить свою позицию в результатах поиска вебмастера применяли и применяют ряд технических приемов, предназначенных именно для обмана, "накручивания" поискового робота. Явление это называется спамом поисковых систем или спамдексингом (от spam + indexing) и появилось практически одновременно с появлением поисковиков.

Так как последние раньше использовали только текстовые критерии для ранжирования результатов, то типовым приемом спамдексинга стала так называемая "накачка" - искусственное завышение частот (весов) нужных слов на странице.

Варианты "накачивания" использовались самые различные: от примитивного "скрытого", невидимого обычному пользователю текста, до создания специальных текстов, где веса слов тщательно рассчитывались в соответствии со значениями, снимаемыми со страниц, занимающих первые позиции в ссылках по необходимым запросам.

Накачиваются сами страницы, титульные фразы, теги noframes и keywords. Специально создаются страницы с подобными "оптимизированными для поисковиков" текстами, попадая на которые, пользователь автоматически перебрасывается на другой сайт. Либо просто видит крупную надпись "Вход". Они так и называются - входные страницы. Более того, разработана специальная техника (клоакинг), когда поисковому роботу показывается одна страница, а пользователям - совершенно другая.

Подобные действия являются бичом поисковиков, потому что сильно перегружают индексы, уродуют внешний вид страниц с результатами поиска и резко снижают релевантность системы, то есть ее качество и ее конкурентное преимущество в борьбе за популярность с другими поисковиками.

История поисковиков есть история их постоянной борьбы со спамом. Совсем недавно в поисках оружия против текстовой "накачки" поисковики начали дополнять текстовые алгоритмы ранжирования результатов поиска нетекстовыми критериями - а именно, ссылочными.

Нетекстовые критерии релевантности

Нетекстовые критерии можно разделить на три основных типа. Мы даем условные названия, так как устоявшейся терминологии пока нет:

ссылочно-расчетные,

ссылочно-текстовые,

каталожные.

Как мы уже говорили, в случаях нетекстового критерия на ранжирование страницы влияет не ее содержание, а другие факторы.

Ссылочно-расчетные критерии. К ссылочно-расчетным критериям относится алгоритм поисковой системы Google - так называемый взвешенный индекс цитирования PageRank (PR). Подробная статья о нем Криса Райдингса (перевод и комментарии А. Садовского) имеется на сайте Александра Садовского http://www.digits.ru/

Индекс цитирования учитывает, как много ссылок имеется в Сети на ваш сайт, и насколько авторитетны ссылающиеся на вас сайты. Авторитетность "цитирования" определяется также по количеству ссылок на "цитирующего". Для расчета индекса цитирования Google и подобные ему системы регулярно "перетряхивают" невообразимо огромные матрицы связей между сайтами Интернета, пересчитывая вес ссылок и авторитетность ресурсов (заметим, что Google использует для этого "ферму" более чем из 10 000 серверов!). Подобный алгоритм используется также "Яндексом".

Каталожные критерии. К каталожным критериям можно отнести индекс цитирования "Яндекса" (citation index, CY) и алгоритм выдачи результатов поиска "Рамблера". В обоих случаях принцип один - наверху результатов поиска по запросу в индексах выдается несколько ссылок на сайты, зарегистрированные в принадлежащих порталам тематических каталогах. В случае "Яндекса" показывается до трех ссылок на сайты из каталога "Яндекса", если в их описании имеются слова запроса. Ранжирование производится по убыванию индекса цитирования "Яндекса". Каталожные ссылки в результатах поиска "Яндекса" четко отличаются от обычных счетных: они не нумеруются, а отмечаются точками. Описание ресурса в каталоге "Яндекса" проверяется, а частенько и составляется вручную составителями каталога (так называемыми модераторами). Индекс цитирования, естественно, рассчитывается автоматически.

В свою очередь, "Рамблер" "замешивает" на первую страницу результатов поиска по запросу до пяти ссылок на сайты, зарегистрированные в каталоге-рейтинге Rambler's Top100, если их посещаемость (по "хостам") выше некоторого минимального порога. Критерием для внесения данных ссылок в список результатов поиска служит наличие слов запроса в описании сайта, сделанном для Rambler's Top100. В отличие от "Яндекса", где размер описания ограничен двумя сотнями символов, на индексацию в Rambler's Top100 может быть подано описание размером до 4000 символов.

При внесении в рейтинг описание сайта также может проверяться сотрудником "Рамблера" - модератором рейтинга.

Ссылочно-текстовые критерии. К ссылочно-текстовым критериям может быть отнесен алгоритм, не так давно появившийся в "Яндексе". В данном случае "Яндекс" индексирует текст ссылки (то есть текст, выделенный как гиперссылка, на странице сайта). Другими словами, индексируется содержимое тега <a href=...>, и если запрос совпадает с этим содержимым, в результатах поиска выдается адрес, указанный в теге.

"Яндекс", очевидно, запоминает только внешние ссылки с сайтов, то есть страница, на которой указывает ссылка, не должна принадлежать сайту, где эта ссылка размещена.

При этом при показе результатов поиска подобная страница не имеет титула, и "Яндекс" сопровождает ссылку на нее явным указанием - "адрес найден по ссылке".

Спрос и предложение - точки сближения в поисковых системах

Поисковые запросы являются реальным выражением спроса пользователей на информацию в Интернете. Предложение информации осуществляется на страницах ресурсов Интернета. Индексирующие поисковые системы сегодня являются бесспорным лидером трафикогенерации для большинства сайтов и являются наиболее естественным связующим звеном, соединяющим спрос и предложение.

Как мы уже показали, в основе всех текстовых критериев поисковых систем лежит представление, что пользователь ищет цитату из какого-то документа. На самом же деле это не так. Пользователи ищут не цитаты из документов, а решение своих проблем - ответы на свои вопросы, которые они даже не всегда могут точно сформулировать. Обсуждение этого вопроса выходит за рамки предмета данной статьи, приведем лишь одно из доказательств.

Вот оно: язык спроса радикально отличается от языка предложения. Характеристиками языка предложения (текстов сайта) в массе являются грамотность, литературная корректность, четкость изложения мыслей. Этого совершенно нельзя сказать о языке спроса (языке запросов) - основная масса поисковых запросов относится к нечетким, т. е. допускающим более одного варианта понимания; запросы часто слишком лаконичны, полны опечаток, смешивают кириллицу и латиницу и т.п.

Поисковикам неоткуда брать информацию для своих индексов, кроме как со страниц, подготовленных вебмастерами. И они берут ее в рафинированном, литературном виде.

С другой стороны, вебмастерам никогда не удастся обучить пользователей формулировать поисковые запросы "как надо", длинными гладкими фразами на хорошем русском языке.

Поэтому первым шагом даже не подготовки сайта к индексации, а его разработки должно быть изучение того, как пользователи ищут в Сети информацию. Ту информацию, которую владелец сайта собирается предлагать на своем ресурсе.

Технически этот анализ осуществляется с помощью получения реальных формулировок запросов и информации об их частотах, выделении устойчивых направлений спроса, базовых формулировок и типовых конструкций поисковых запросов (подробнее об этом рассказано в статье "Анализ спроса и повышение видимости в поисковых машинах").

Далее разработчикам предстоит решить, как же соединить требования, предъявляемые к печатному тексту, с необходимостью включения в них слов и конструкций, информация о которых была получена путем анализа поисковых запросов. Процесс этот, увы, алгоритмизировать невозможно. Здесь разработчикам сайта придется решить не очень сложную, но важную лингвистическую задачу - попытаться описать свой бизнес не словами генерального директора, вебмастера или отдела маркетинга компании, а

Похожие работы

< 1 2 3 >