Смена алгоритма поисковой системы Яндекс - здравствуй «Арзамас» (ранее известный как "Анадырь")!

13.04.2009

1 часть.

 

Яндекс научился еще лучше понимать русский язык, разрешая неоднозначности слов в запросах.

Как известно, знание русской морфологии позволяет поиску Яндекса находить больше полезных ответов. Если вы спросили [реконструкц ия Маяковск ой ], система покажет также страницу со словами [станция Маяковск ая открылась после реконструкц ии ]. Но русский язык - тонкий, сложный и неоднозначный. Тем, кто ищет [фото львов], могут быть нужны как фотографии животных, так и фотографии города Львова. Человек может уточнить свое высказывание, добавив к нему одно или несколько слов: [фото африканских львов]  или [фото город львов]. Теперь эти уточнения поиск научился понимать, что необходимо учитывать при поисковом продвижении сайта.

Реализован алгоритм снятия омонимии, позволяющий во многих случаях определить, какое слово имеется в виду, и поиск предлагает в ответ только документы с формами нужного слова. По запросу [фото африканских львов] пользователь получит в ответ документы со словами "лев", "льва", "льву", но не получит документы, где встречаются лишь слова "Львова" или "Львову".

Как научили машину отличать, когда речь идет о животных, а когда - о городах?

 

Алгоритм снятия омонимии основан на анализе данных запросов пользователей, учитывает частоту слов в Интернете и их сочетаемость, а также опирается на лексическую статистику слов из "Национального корпуса русского языка" - академического проекта, разрабатываемого при поддержке Яндекса. При анализе неоднозначного запроса выбирается наиболее частотная модель. Выбор в  пользу наиболее вероятной  конструкции помогает понять, что "день рыбака" - это не призыв, а праздник, а "платья придворных дам" - не обещание поделиться одеждой.

 

2 часть.

 

Теперь поиск Яндекса учитывает регион пользователя. Начиная с "Арзамаса", результаты поиска по одному и тому же запросу могут быть разными в разных регионах, это необходимо учитывать при оптимизации сайтов под новый алгоритм..

Пользователи часто спрашивают Яндекс о людях и компаниях из их региона, локальных событиях и местах, сайтах и услугах. Например, среди самых часто задаваемых запросов в Челябинске и Ростове-на-Дону 14% "локальных", в Уфе - 24%, а во Владивостоке - 29%. Ранжирование с учетом региона поможет поиску дать более точный ответ на вопрос пользователя.

Движение в эту сторону поиск начал давно - с 2006 года в Яндексе работает автоматическая геоклассификация сайтов, еще раньше появилась возможность ограничить поиск сайтами из своего региона (в расширенном поиске или взведя галочку под поисковой строкой). Но теперь Яндекс пытается сам определить, важен ли регион в каждом конкретном случае. И, конечно, были и будут колдунщики, дающие локальные для пользователя ответы из Карт, Адресов, Афиши, Погоды и Новостей.

Как "Арзамас" понимает, что какие-то результаты должны быть локальными?

 

Регион пользователя определяется по IP-адресу. При желании пользователь может указать свой регион вручную. В ранжировании стали учитываться факторы, позволяющие понять, что данная страница важна пользователям именно "своего" региона. Причем попытались сделать это решение максимально общим, не зависящим ни от какого региона конкретно.

Для ряда регионов - и список их будет расти - мы используем специально настроенную формулу ранжирования. Сейчас индивидуальная формула есть для Москвы, Санкт-Петербурга и российского регионального поиска, а также для некоторых стран СНГ.

С выходом "Арзамаса" поиск начал учитывать в подсказке об опечатках настройку языка браузера при определении языка запроса в сложных случаях.