Knowledge Based Trust — новая разработка Google

Google Knowledge Based Trust
Статьи
Автор: Юлия Федотова
«Шеф-редактор блога GetGoodRank, веб-аналитик, блоггер.
Поисковые системы совершенствуют алгоритмы. Сегодня курс на качество, полезность и юзабельность актуален. Это доказывает новая разработка Google»

Современные поисковые алгоритмы изменяют формулы ранжирования сайтов, включая качественные, поведенческие/пользовательские, коммерческие составляющие для максимально качественной и релевантной поисковой выдачи. Яндекс официально заявил об учете качественных характеристик сайта, его коммерческого потенциала для определения его места в поисковой выдаче, а что делает Google?

Google не так охотно делится своими разработками в области усовершенствования алгоритмов ранжирования. Однако недавно опубликованный документ не мог остаться без внимания.

Что такое KBT?

12 февраля 2015 года опубликован отчет Google о новом исследовательском методе — Knowledge Based Trust. KBT сложно назвать новым поисковым алгоритмом, этот механизм оценки достоверности информации призван уравновесить внешние факторы определения авторитетности сайта (PageRank).

KBT основывает анализ информации на сравнении с данными из двух систем Google Knowledge Graph и Knowledge Vault.

12 мая 2012 года Google Blog официально заявляет о новой базе Knowledge Graph. Данная база знаний создавалась для улучшения качества поиска. Изначально KG содержала более 500 миллионов объектов и более 3,5 миллиардов фактов. Система разрабатывалась с целью исключить двусмысленность и неопределенность из поиска. Каждый запрос расценивается теперь не только как цепочка последовательных символов, но также и как объект, который символизирует каждое слово либо словосочетание. Внедрение KG ознаменовало смещение поиска в сторону семантики вместо простой обработки ключевых запросов.

Сейчас поиск пытается понять, что имеет ввиду пользователь, а не предоставить ему все возможные сайты, на которых упоминается данный запрос.

Анализ поисковых запросов пользователей определяет, какие факты наиболее интересны пользователям по этому запросу, а так, что именно должно отражаться в фактической выборке по запросу.

По запросу Тадж-Махал Google предлагает следующий ответ из Knowledge Graph:

Knowledge Graph

KG — это элемент искусственного интеллекта поисковика, понимающий значения поисковых запросов, умеющий правильно объединять понятия и связывать их между собой.

Мы полагаем, что поиск должен интуитивно понимать, что подразумевает в своем запросе каждый пользователь, и выдавать в результатах именно ту информацию, которая ему необходима.

Knowledge Vault — уникальный механизм поиска и дополнения информации в хранилище данных. Основным отличием Knowledge Graph и Knowledge Vault является то, что Graph аккумулирует данные из достоверных источников, а Vault собирает короткие факты из любых ресурсов (достоверных и недостоверных), которые затем фильтруются машиной.

KBT будет определять достоверность и корректность представленной на сайте информации, сравнивая факты с данными из хранилищ Graph и Vault.

Цели создания KBT

Поисковая система Google активно тестирует новый механизм проверки достоверности фактических данных, указанных на сайте. Для этого применяются сложные формулы, используются базы данных Knowledge Graph и Knowledge Vault.

До недавнего времени авторитетность интернет-ресурса определялась по внешним факторам (в случае ПС Google — это PageRank), но такие факторы скоре указывают на популярность ресурса, а не на достоверность представленной информации. В итоге в результатах выдачи пользователь видит достаточно популярные ресурсы, но достоверность опубликованной информации на данных сайтах сомнительна. Именно поэтому эксперты Google приходят к выводу, что при ранжировании сайтов необходимо учитывать внутренние факторы, такие как достоверность данных. KBT имеет своей целью определять достоверность информации каждого веб-сайта.

Принципы действия KBT

Новый механизм Google создает фактическую выборку. Каждый факт — это информационный триплет, содержащий предмет, действие, объект (subject, predicate, object).

Особые поисковые роботы (экстракторы) сканируют всю информацию на сайте и выделяют из нее такие факты (триплеты).

KBT — это интеллектуальный механизм. Данная система способны отличить ошибку извлечения (неправильная генерация факта роботом) от фактической ошибки (температура — лед — <0).

KBT выделяет факты на страницах сайта  и анализирует их достоверность, сравнивая с проверенными данными из хранилищ знаний Google. KBT умеет масштабировать сайты для анализа. Так, в глобальной сети найдется множество сайтов, на страницах которых можно выделить всего 1-2 подходящих для анализа факта. В данном случае система объединяет страницы в пределах одного сайта для определения фактов. В случае с большим количеством возможных фактов система «разбивает» каждую страницу сайта на отдельные блоки и выделяет нужную для анализа информацию. Это упрощает работу системы в плане скорости сбора и оценки данных.

Индекс KBT рассчитывается в диапазоне от 0 до 1 и не коррелируется с PR. Приведенные в документе исследования показывают анализ 2000 сайтов, выбранных случайным образом. Есть явные примеры веб-ресурсов с достаточно высоким KBT-индексом и низким PR, и наоборот, сайты сайты с достаточно высоким PR и критично низким индексом KBT.

PageRank KBT

Результаты данного исследования были проверены вручную, где случайная выборка 100 сайтов и наиболее часто встречающихся фактов (триплетов) подверглись анализу по следующим 4 параметрам:

  • Фактическая правильность триплетов
  • Правильность генерации триплета экстрактором со страницы сайта
  • Релевантность темы триплета основной теме сайта
  • Нетривиальнось триплета

Ручной анализ показал:

  • 85 сайтов из 100 выбранных оказались достоверными
  • 2 сайта оказались тематически нерелевантными
  • на 2 сайтах триплеты были экстрагированы ошибочно
  • 12 сайтов содержат очень мало нетривиальных фактов

Из 85 достоверных сайтов только 20 имеют PR выше 0,5, что доказывает резонность введения такого дополнительного фактора оценки при ранжировании.

Сами эксперты Google признают, что данный механизм находится в стадии разработки и испытывается исключительно на синтетических данных. Дальнейшее совершенствование модели будет произведено в следующих направлениях:

  • обучение механизма фильтровать нерелевантные триплеты на сайте
  • обучение механизма фильтровать тривиальную и нетривиальную информацию
  • применение механизма на большем количестве сайтов (сегодня не все сайты подлежат KBT-анализу)
  • обучение механизма определять первоисточник информации, так как многие сайты копируют данные с других ресурсов

Выводы

PageRank KBTТочных данных о введении KBT в алгоритм ранжирования Google пока нет. Однако масштабность данного исследования доказывает серьезность намерений поисковой системы качественно улучшить поиск и выдачу для пользователей. Разработка такого механизма направлена на борьбу с низкокачественными сайтами, предоставляющими недостоверные данные пользователям. Введение данного механизма для определения авторитетности ресурса и достоверности данных существенно изменит поиск и место каждого сайта в выдаче.

PageRank KBTЧто сегодня может предпринять каждый веб-мастер?

1. Отказ от некачественной, непроверенной информации при создании новых сайтов и редактирование текстов на существующих сайтах

2. Создание большего массива полезной, качественной информации на сайте. Это улучшит пользовательский опыт, снизит показатель отказов

3. Простая подача информации. В своем исследовании Google говорит о триплетах, то есть простейших грамматических структурах, четких, логичных, ясных. Это упростит чтение и восприятие информации пользователями (что автоматически увеличит время их пребывания на сайте), а также позволит избежать действия возможных поисковых фильтров.

PageRank KBTОпубликованное исследование показывает, что в настоящее время действительно происходит качественный сдвиг в алгоритмах поиска. Игнорировать данные изменения сегодня непозволительно. Последние события указывают на то, что в скором времени только полезные, актуальные и интересные для пользователя сайты займут ТОП поисковой выдачи.

PageRank KBTKBT не коррелируется с PageRank и не отменяет ссылочный фактор ранжирования, однако существенно снижает вес ссылок при построении поисковой выдачи.

Добавить комментарий

Войти с помощью: 

Статьи по теме

ошибки лид-формы
Статьи
Эффективная лид-форма: 15 ошибок, убивающих конверсию
Лид — потенциальный клиент, отреагировавший на маркетинговую стратегию и оставивший сво...
Эффективное продвижение
Статьи
Неэффективное продвижение: 5 методов, от которых пора отказаться
Говоря об эффективном продвижении, нельзя четко определить стратегии, которые 100% выве...