Алгоритмы ранжирования. Какие критерии учитывает алгоритм ранжирования

Алгоритмы ранжирования веб-сайтов и их критерии

Алгоритмы ранжирования.  Какие критерии учитывает алгоритм ранжирования

Сегодня ни один современный пользователь сети интернет не представляет свою жизнь без поисковой системы.Ведь именно она в первую очередь приходит на помощь, когда пользователь ищет информацию.

Каждую секунду в поисковую систему люди вбивают миллионы запросов, ищут нужную им информацию.Все что им нужно, получить ответ на свой вопрос, а вебмастера думают над тем, как сделать так,чтобы именно их сайт заинтересовал пользователя.

А для этого необходимо быть в топе поисковой выдачи.

Исходя из этого, многие владельцы сайтов занимаются поисковым продвижением.Ведь именно такое продвижение является самым лучшим, так как приносит качественный и нужный трафик на сайт.

Поисковые системы используют алгоритмы ранжирования, с помощью которых они определяют, на каком месте выдачи будет сайт.

И хотя вся эта информация секретная и вряд ли когда-то будет где-то опубликована,большие специалисты продвижения уже знают основные параметры, которые помогут попасть в топ поисковых машин.

Алгоритмы, которые управляют поисковой выдачей, это целый набор правил и оценки.Поисковые машины, перед тем как отдать сайт в выдачу и определить ему место в поиске,очень тщательно проверяют сайт на всевозможные параметры.И также сравнивают с другими сайтами, по этому же запросу.

Всегда нужно изучать алгоритмы, которые являются первостепенными, приоритетными для поисковиков.А так же регулярно следить за тем, как поисковые машины изменяют алгоритмы, совершенствуют принципы отбора и так далее.

Это связано с тем, что современные поисковые системы очень часто добавляют новые алгоритмы,улучшают работу старых, дорабатывают систему поиска.

Все это нужно для того, чтобы забрать у недобросовестных оптимизаторов возможность влиять на поисковую выдачу,выдавать только те сайты, ту информацию, которую ищут люди.

Частотность и спам

Ещё с самого начала поисковые системы работали исключительно с ключевыми словами.Некоторое время назад можно было просто написать в тексте десяток ключевых слов и сайт попадал в топ.При этом никаких ограничений со стороны поисковых машин не было и быть не могло.Сегодня же всё поменялось.Да, сегодня при поисковой оптимизации также важно вписывать ключевые слова в содержание.

Но сегодня поисковые системы используют накопленную статистику, и они легко определяют, где контент написан для поисковых роботов,а где для пользователей.И также современные поисковики научились карать черных оптимизаторов, причём безжалостно.

Сегодня поисковым системам мало заполнить текст ключевыми словами.Они проверяют контент на уникальность, размеры текстов и даже тавтологию.

Именно поэтому в поисковой выдаче на самых первых местах находятся те сайты, которые создаются специально для людей,раскрывают информацию, отвечают на вопросы.Сложно конечно, сказать, на что конкретно поисковые роботы обращают внимание.

Но точно можно сказать, что в первую очередь на популярность сайтов влияет то,чтобы пользователь получил нужную ему информацию.

Профиль ссылок

Сегодня для сайта немаловажно то, что его цитируют, ссылаются, упоминают.Именно поэтому поисковые системы тщательно отслеживают все ссылки, которые ведут на сайт.Таким образом, поисковые системы видят, что ваш сайт обсуждают, ссылаются на него.В глазах поисковых систем это говорит о качественном, уникальном контенте, который очень полезен для людей.

Что люди делают на сайте?

Одним из главных показателей привлекательности и полезности сайта являются поведенческие факторы.

Для поисковых систем крайне важно знать и отслеживать, что пользователи делают на вашем сайте, соответствует ли контент запросу.И также проверяются другие параметры.

Эту нужно для того, чтобы понимать насколько удобно пользователю на сайте.Существуют, конечно, способы повлиять на поведенческие факторы, используя запрещенные программы, сайты, людей.

Но также важно помнить о том, что если поисковая система определит нарушения в продвижении, она очень жёстко накажет.И, скорее всего, сайт будет вообще удален из поисковой выдачи.Поисковые машины очень жестоко карают тех, кто использует искусственные показатели,даже если сайт был мегапопулярным и посещаемым.Для поисковых машин все сайты одинаковы.

Существует огромное количество алгоритмов, с помощью которых поисковые системы определяют качество и место в поиске для сайта.Но они постоянно меняются или убираются вообще.А те алгоритмы, которые описаны выше, являются приоритетными для поисковых машин.

И если сейчас продвигать свои сайты в поисковых системах не ради заработка, а ради людей,то поисковая система рано или поздно заметит эту стратегию и будет выдвигать сайт в топ.

А значит, сайт будет высоко посещаемым, популярным, с качественным трафиком и хорошим доходом.

Добавляйтесь ко мне в друзья ВКонтакте: http://.com/myrusakov.
Если Вы хотите дать оценку мне и моей работе, то напишите её в моей группе: http://.com/rusakovmy.

Если Вы не хотите пропустить новые материалы на сайте,
то Вы можете подписаться на обновления: Подписаться на обновления

Источник: https://MyRusakov.ru/ranking-algorithm.html

Выявление алгоритмов ранжирования поисковых систем

Алгоритмы ранжирования.  Какие критерии учитывает алгоритм ранжирования

Когда какое-то время работаешь в сфере SEO, рано или поздно невольно посещают мысли о том, какие же формулы используют поисковики, чтобы поставить сайт в поисковой выдаче выше или ниже.

Всем известно, что это все хранится в глубочайшей секретности, а мы, оптимизаторы, знаем только то, что написано в рекомендациях для вебмастеров, и на каких-то ресурсах посвященных продвижению сайтов.

А теперь задумайтесь на секунду: что если бы у вас был бы инструмент, который достоверно, с точностью в 80-95% показывал бы, что именно нужно сделать на странице вашего сайта, или на сайте в целом, для того, чтобы по определенному запросу ваш сайт был на первой позиции в выдаче, или на пятой, или просто на первой странице.

Мало того, если бы этот инструмент мог бы с такой же точностью определить, на какую позицию выдачи попадете, если выполните те или иные действия. А как только поисковик вводил бы изменения в свою формулу, менял бы важность того или иного фактора, то можно было бы сразу видеть, что конкретно в формуле было изменено.

И это только малая доля той информации, которую вы могли бы получить из такого инструмента. Итак, это не реклама очередного сервиса по продвижению, и это не предоставление конкретной формулы ранжирования сайтов поисковыми системами. Я хочу поделиться своей теорией, на реализацию которой у меня нет ни средств, ни времени, ни достаточных знаний программирования и математики. Но я точно знаю, что даже у тех, у кого все это есть, на реализацию этого может уйти даже не 1 месяц, возможно, 1-1,5 года.

Теория

Итак, теория состоит в том, чтобы методом тыка пальцем в небо выяснить, какой фактор влияет на позиции больше или меньше другого фактора. На пальцах это все рассказать очень сложно, поэтому мне пришлось сделать таблицу, которая более менее отобразит то, что я хочу донести.

Посмотрели на таблицу? Теперь к делу. Берем любую ключевую фразу, не важно какую, вводим в поисковик и из выдачи берем первых 10 сайтов, это и будут наши подопытные.

Теперь нам нужно сделать следующее: написать код, который будет методом тыка менять значимость у факторов (ЗФ в таблице) ранжирования до тех пор, пока наша программка не расположит сайты таким образом, что бы они точно совпадали с выдачей поисковой системы.

То есть мы должны методом тыка повторить алгоритм ранжирования поисковика. Значимость самих факторов мы можем определить только как положительную нейтральную или отрицательную.

Теперь по порядку о таблице и факторах. Условно каждому фактору присваиваем значение от 1 до 800 (примерно). Так как достоверно известно, что у Яндекса, например, факторов ранжирования где-то близко к этому числу. Грубо говоря, у нас максимальное число будет таким, сколько факторов ранжирования нам точно известно. У двух факторов не может быть одинакового числа, то есть у каждого фактора значение уникальное. В таблице для каждого фактора отдельная колоночка, и их очень много, физически мне не удастся на одной картинке все разместить. Теперь вопрос, как вычислить ранг страницы? Очень просто: для начала простая математика, если фактор положительно влияет, мы к рангу страницы прибавляем ранг фактора, если отрицательно, то прибавляем 0. Можно усложнить, сделать 3 варианта и добавить, например, вычитание ранга фактора от ранга страницы, если этот фактор критический, например, грубый спам ключевой фразы.

У нас получается примерно такой алгоритм вычисления ранга страницы. Возьмем его за (PR), а фактор возьмем как (F) и тогда:

PR = Берем первый фактор Если F1 положительный, то делать PR + F1, если F1 отрицательный то делать PR — F1, если F1 нейтральный, то не делать ничего, после этого проверяем так же F2, F3, F4 и так далее, пока факторы не кончатся.

А подбор производить таким образом, что бы у каждого фактора попробовать каждое значение ранга. То есть чтобы каждый фактор испробовать в каждом значении. Вся сложность состоит в том, чтобы учесть все влияющие факторы, вплоть до количества текста на странице и ТИЦа сайта, на котором расположена ссылка на нашу подопытную страницу, и сложность даже не в учете этой информации, а в ее сборе. Потому что вручную собирать всю эту информацию нереально, нужно писать всевозможные парсеры, чтобы наша программка собирала все эти данные автоматически. Работа очень большая и сложная и требует определенного уровня знаний, но только представьте, какие возможности она откроет после реализации. Я не буду вдаваться во все тонкости вычислений и влияния факторов, не люблю много писанины, мне проще объяснить человеку напрямую. Сейчас некоторые скажут, что совпадений будет очень много в разных вариациях. Да, будет, но если взять не первую страницу, а, к примеру, первые 50 страниц? Во сколько раз тогда сократится вероятность промаха? Еще есть сложность в том, что некоторые факторы нам просто негде будет взять, например, мы ни как не сможем учесть поведенческие факторы. Даже если все сайты из выдачи будут под нашим контролем, мы не сможем этого сделать, потому как скорей всего учитываются именно то, как пользователь ведет себя на выдаче, отсюда появляется вторая неизвестная в нашем уравнении, помимо самой позиции. Что нам даст такой софт после реализации? Нет, точную формулу поисковика он не даст, но точно покажет, какой из факторов влияет на ранжирование сильней, а какой вообще не значительный. А при продвижении мы сможем в эту формулу подставить страницу своего сайта, со своими параметрами, и еще до того, как начать ее продвижение, увидим, на какой позиции будет страница по определенному запросу после того, как поисковик учтет все изменения.

В общем, это очень сложная тема, и очень полезная информация для ума, потому как заставляет подумать, хватит, например, мощности одного компьютера на такие вычисления? А если и хватит, то сколько это займет времени к примеру? Если не удовлетворит результат, то формулу как-то можно усложнять, менять, пока не будет 100% точного результата на 100 страницах выдачи. Более того, можно для чистоты эксперимента подключить около 100 различных сайтов и внедрить на них несуществующую ключевую фразу, а потом по этой же ключевой фразе и отследить алгоритм. Вариантов масса. Нужно работать.

  • seo оптимизация
  • seo продвижение
  • поисковые системы
  • google
  • яндекс
  • seo

Хабы:

Источник: https://habr.com/post/237415/

Компания Яндекс — Принципы — Принципы ранжирования поиска Яндекса

Алгоритмы ранжирования.  Какие критерии учитывает алгоритм ранжирования

Интернет состоит из миллионов сайтов и содержит экзабайты информации. Чтобы люди могли узнать о существовании этой информации и воспользоваться ей, существуют поисковые системы.

Они реализуют право человека на доступ к информации — любой информации, которая нужна в данный момент.

Поисковая система — это техническое средство, с помощью которого пользователь интернета может найти данные, уже размещенные в сети.

Пользователи ищут в интернете самые разные вещи — от научных работ до эротического контента. Мы считаем, что поисковая система в каждом случае должна показывать подходящие страницы — от статей по определенной теме до сайтов для взрослых. При этом она просто находит ту информацию, которая уже есть в интернете и открыта для всех.

Яндекс не является цензором и не отвечает за содержание других сайтов, которые попадают в поисковый индекс. Об этом было написано в одном из первых документов компании «Лицензия на использование поисковой системы Яндекса», созданном еще в 1997 году, в момент старта www.yandex.

ru: «Яндекс индексирует сайты, созданные независимыми людьми и организациями. Мы не отвечаем за качество и содержание страниц, которые вы можете найти при помощи нашей поисковой машины. Нам тоже многое не нравится, однако Яндекс — зеркало Рунета, а не цензор».

Информация, которая удаляется из интернета, удаляется и из поискового индекса. Поисковые роботы регулярно обходят уже проиндексированные сайты. Когда они обнаруживают, что какая-то страница больше не существует или закрыта для индексирования, она удаляется и из поиска.

Для ускорения этого процесса можно воспользоваться формой «Удалить URL».

В ответ на запрос, который пользователь ввел в поисковой строке, поисковая система показывает ссылки на известные ей страницы, в тексте которых (а также в метатегах или в ссылках на эти сайты) содержатся слова из запроса.

В большинстве случаев таких страниц очень много — настолько, что пользователь не сможет просмотреть их все. Поэтому важно не просто найти их, но и упорядочить таким образом, чтобы сверху оказались те, которые лучше всего подходят для ответа на заданный запрос — то есть, наиболее релевантные запросу.

Релевантность — это наилучшее соответствие интересам пользователей, ищущих информацию. Релевантность найденных страниц заданному запросу Яндекс определяет полностью автоматически — с помощью сложных формул, учитывающих тысячи свойств запроса и документа.

Процесс упорядочивания найденных результатов по их релевантности называется ранжированием. Именно от ранжирования зависит качество поиска — то, насколько поисковая система умеет показать пользователю нужный и ожидаемый результат. Формулы ранжирования строятся также автоматически — с помощью машинного обучения — и постоянно совершенствуются.

Качество поиска — это самый важный аспект для любой поисковой системы. Если она будет плохо искать, люди просто перестанут ей пользоваться.

Поэтому мы не продаем места в результатах поиска.

Поэтому на результаты поиска никак не влияют политические, религиозные и любые другие взгляды сотрудников компании.

Пользователи просматривают страницу результатов поиска сверху вниз. Поэтому Яндекс показывает сверху, среди первых результатов, те документы, которые содержат наиболее подходящие пользователю ответы — то есть наиболее релевантные заданному запросу. Из всех возможных релевантных документов Яндекс всегда старается выбрать наилучший вариант.

С этим принципом связано несколько правил, которые Яндекс применяет к некоторым типам сайтов. Все эти правила работают полностью автоматически, их выполняют алгоритмы, а не люди.

1. Существуют страницы, которые явно ухудшают качество поиска. Они специально созданы с целью обмануть поисковую систему. Для этого, например, на странице размещают невидимый или бессмысленный текст.

Или создают дорвеи — промежуточные страницы, которые перенаправляют посетителей на сторонние сайты. Некоторые сайты умеют замещать страницу, с которой перешел пользователь, на какую-нибудь другую.

То есть когда пользователь переходит на такой сайт по ссылке из результатов поиска, а потом хочет снова вернуться к ним и посмотреть другие результаты, он видит какой-то другой ресурс.

Такие ресурсы не представляют интереса для пользователей и вводят их в заблуждение — и, соответственно, ухудшают качество поиска. Яндекс автоматически исключает их из поиска или понижает в ранжировании.

2. Бывает, что в том или ином документе есть полезная информация, но воспринимать ее сложно.

Например, есть сайты, которые содержат popunder-баннеры (они перемещаются по экрану вслед за прокруткой страницы и закрывают ее содержание, а при попытке закрытия такого баннера открывается новое окно) и clickunder-рекламу (она неожиданно для пользователя открывает рекламную страницу при любом клике по сайту, в том числе — по ссылкам).

С нашей точки зрения, оба этих вида рекламы мешают навигации по сайту и нормальному восприятию информации. Поэтому сайты с такой рекламой располагаются в поисковой выдаче ниже, чем сайты, на которых пользователь может найти ответ на свой вопрос без лишних проблем.

3. По запросам, которые не подразумевают явно потребность в эротическом контенте, Яндекс ранжирует сайты для взрослых ниже или вообще не показывает их в результатах поиска. Дело в том, что ресурсы с эротическим контентом часто используют достаточно агрессивные методы продвижения — в частности, они могут появляться в результатах поиска по самым разнообразным запросам. С точки зрения пользователя, который не искал эротики и порнографии, «взрослые» результаты поиска нерелевантны, и, к тому же, могут шокировать. Более подробно об этом принципе можно почитать здесь.

4. Яндекс проверяет индексируемые веб-страницы на наличие вирусов. Если обнаружилось, что сайт заражен, в результатах поиска рядом с ним появляется предупреждающая пометка.

При этом зараженные сайты не исключаются из поиска и не понижаются в результатах поиска — может быть, на таком ресурсе находится нужный пользователю ответ, и он все равно захочет туда перейти.

Однако Яндекс считает важным предупредить его о возможном риске.

Основная метрика качества поиска Яндекса — это то, насколько пользователю пригодились найденные результаты. Иногда по запросам пользователей невозможно определить, какой ответ ему подойдет. Например, человек, задавший запрос [пушкин], возможно, ищет информацию о поэте, а возможно — о городе. Точно так же человек, который набрал запрос [iphone 4], может быть, хочет почитать отзывы и ищет форумы, а может быть, хочет купить и ищет магазины. Среди первых результатов поиска должны найтись ответы для всех случаев. Поэтому Яндекс старается сделать страницу результатов поиска разнообразной. Поиск Яндекса умеет определять многозначные запросы и показывает разнообразные ответы. Для этого используется технология «Спектр».

Источник: https://yandex.ru/company/rules/ranking

Изучаем алгоритм текстового ранжирования Яндекса на РОМИП-2006

Алгоритмы ранжирования.  Какие критерии учитывает алгоритм ранжирования

«Алгоритм текстового ранжирования Яндекса на РОМИП-2006» — статья, написанная работниками Яндекса. Среди авторов сам Илья Сегалович. Описанный алгоритм — экспериментальная поисковая система, созданная для улучшения основного поиска.

Прочитать публикацию можно например здесь: http://www.romip.ru/romip2006/03_yandex.pdf

Стоит ли тратить на нее время? Ведь с момента публикации прошло более 10 лет: огромный срок для SEO. Стоит!

Дело не только в том, что нам ценна любая информация из первых рук — от представителей поисковой системы. И не в том, что ей можно доверять, как серьезной научной публикации.

Что можно узнать из этого исследования

Следите за руками:

  1. Создатели Яндекса конструируют поиск с нуля.
  2. В работе используется особая коллекция веб-страниц.
  3. Одна из характеристик этой выборки текстов — отсутствие поисковой оптимизации (см. пункт 4.3).

То есть. В статье описана не просто еще одна формула ранжирования. В ней также изложены характеристики естественных текстов, которые при этом являются релевантными поисковым запросам.

Алгоритмы ранжирования за 10 лет сильно поменялись и усложнились. Зато подходы к написанию текстов куда стабильнее.

Качественная статья десятилетней давности мало отличается от современной в плане содержания. Понятно, что сайты стали сложнее и функциональнее, прибавилось мультимедиа, но основа неизменна.

Поэтому многие факторы, работавшие в тогда, могут работать и сейчас — в «настоящем» поиске.

Факторы, определяющие текстовую релевантность

Скриншот формулы и пояснения к ней:

Как видим, формула не такая уж большая и сложная. Всего 5 слагаемых дают оценку текстовой релевантности, которая позволяет неплохо ранжировать документы.

Это еще больше подтверждает высказанную выше мысль о том, что в алгоритме описаны базовые, универсальные принципы текстовой релевантности.

А вот насчет последнего слагаемого — PRF сказать то же самое нельзя. Это мера похожести страницы на документы, которые считаются релевантными.

«Похожесть» может рассчитываться по самым разным алгоритмам и не завязана на текстовое содержание. Наверняка с внедрением Matrixnet подходы к оценке сходства сильно поменялась. Поэтому раздел «2.

4 Pseudo-relevance feedback» стоит смотреть лишь для понимания общей логики работы поисковой системы.

Перейдем непосредственно к факторам.

Встречаемость слов в документе

Всем известный и самый очевидный фактор ранжирования. В экспериментальной формуле применяется модификация алгоритма BM25.

Интересно, что:

При подсчете количества вхождений слова в документ мы проводим предварительную лемматизацию слов запроса и слов документа. Результат поиска без лемматизации существенно уступает варианту с лемматизацией.

Лемматизация — это приведение слов к начальной форме («пластиковые» -> «пластиковый», «окна»->»окно»). То есть спамить сверхточными вхождениями было не слишком осмысленным занятием уже в 2006 году. С позиции этого фактора разные словоформы дают одинаковый вклад в релевантность (и выглядят на странице куда естественнее и привлекательнее).

Еще цитата:

Помимо учета количества слов в документе можно учитывать html-форматирование и позицию слова в документе. Мы учитываем это в виде отдельного слагаемого. Учитывается наличие слова в первом предложении, во втором предложении, внутри выделяющих html тегов.

Учет пар слов

Пара учитывается, когда слова запроса встречаются в тексте подряд (+1), через слово (+0.5) или в обратном порядке (+0.5). Плюс еще специальный случай, когда слова, идущие в запросе через одно, в тексте встречаются подряд (+0.1).

Далее интересная фраза:

Учет встречаемости трех и более слов запроса в документе улучшений в наших экспериментах не дал.

Из этого не следует, что для хорошего ранжирования всегда достаточно вхождения лишь пары слов из запроса. Очевидно, речь идет именно о Wpair слагаемом формулы. Вхождение остальных слов оценивается в следующем слагаемом.

Учет всех слов запроса в документе, учет фраз

Важным фактором помимо перечисленных является наличие в документе всех слов запроса. За наличие всех слов запроса мы добавляем дополнительный «бонус» , пропорциональный сумме idf слов запроса.

Проще говоря, наличие всех слов из поисковой фразы дает бонус к ранжированию, причем за вхождение более редких слов этот бонус выше. Вхождение часто употребляемых на разных страницах слов также даст бонус, но небольшой.

На практике бывает сложно добиться вхождения всех слов всего спектра поисковых запросов в документ.

Просто потому, что мы и сами не знаем, по каким ключам можем привлечь трафик, как бы тщательно ни составляли семантическое ядро.

Длинный хвост ключевиков настолько длинный, что его не охватить невооруженным глазом. А ведь поисковый спрос еще и меняется со временем, появляются новые пользовательские интересы.

Чтобы автоматизировать решение этой проблемы, добавил в свой анализатор сайта инструмент, который подсказывает часто встречающиеся в ключевых фразах, но не используемые в тексте леммы.

 Разумеется, все не сводится к простому набору слов. Я ставлю более амбициозную задачу — найти темы, интересные аудитории сайта, но недостаточно хорошо освещенные в тексте.

Читайте подробнее в анонсе инструмента.

Помимо наличия слов запроса в документе мы можем учесть наличие в документе текста запроса целиком. Плюс к этому еще небольшой «бонус» дается за наличие в тексте предложений, содержащих значительное количество слов запроса.

Насчет точного вхождения все очевидно, комментировать нечего. А вот второе предложение напоминает нам о том, что просто вхождения всех слов мало. Они должны быть логически связаны и располагаться в одном предложении.

Как все это использовать?

Итак, факторами текстовой релевантности можно считать:

  • Частота вхождения леммы в документ.
  • Вхождение в первое и второе предложения.
  • Вхождение в выделяющие html-теги.
  • Вхождение пар слов из запроса.
  • Наличие всех слов запроса в тексте (более редкие слова дают больший бонус).
  • Наличие точного вхождения фразы для многословных запросов.
  • Наличие пассажей (предложений), содержащих значительное количество слов запроса.

Как уже отмечал выше, это основы текстового ранжирования, характеристики естественных релевантных документов.

Поэтому, размещая текст на сайте, стоит убедиться, что вы «отработали» каждый из пунктов короткого списка (по-минимуму, без фанатизма). Это отправная точка.

Только если начальной оптимизации окажется недостаточно, стоит браться за текстовые анализаторы, ручной анализ ТОПа, LSI и прочую магию.

Работаем строго по закону Парето: простые действия, дающие 80% результата — в первую очередь!

Источник: https://alexeytrudov.com/web-marketing/seo/algoritm-tekstovogo-ranzhirovaniya.html

WikiMedForum.Ru
Добавить комментарий