Yandex Data Factory

Yandex Data Factory
Справочник оптимизатора
Автор: Юлия Федотова
«Шеф-редактор блога GetGoodRank, веб-аналитик, блоггер.
Машинное обучение применяется в поиске. Сегодня важно понять, как Яндекс может изменять задачи поиска и как это отразится на качестве ответа. Из приведенного примера видно, что система хорошо справилась с задачей, учитывая внесенные изменения.»

Yandex Data Factory — это подразделение Яндекса, созданное в 2014 году для анализа больших данных. Так Яндекс помогает компаниям использовать накопленные данные для оптимизации бизнес-процессов и увеличения прибыли.

Применяя персональные данные в режиме реального времени и прогнозную аналитику, унаследованные от Яндекса, Yandex Data Factory помогает компаниям разработать подходы для ведения бизнеса, основанные на реальных данных клиентов самой компании, а не на общих трендах, предлагаемых аналитическими агентствами.

Яндекс работает над алгоритмами машинного обучения фактически с самого основания компании. Сегодня алгоритмы применяются в поиске и ранжировании сайтов и брендовых приложений. Новейшие технологии Яндекс распознают объекты на изображениях (реализовано в поиске по картинкам), человеческий голос, геопространственное расположение.

Блог компании Яндекс рассказал на примере, как работает Yandex Data Factory.

Как Yandex Data Factory помогает в решении бизнес-задач?

Фармацевтическая компания «АстраЗенека» выпускает антибиотики для лечения бактериальных инфекций. Бактерии — живые, легко адаптирующиеся организмы. Лечение неправильными препаратами, длительное применение неправильных дозировок антибиотика приводит к резистентости штамма — микроорганизм не реагирует на действие препарата. Антибиотик более не подавляет рост плохих бактерий в организме.

Лечение неэффективными антибиотиками опасно: во-первых, болезнь прогрессирует, во-вторых, антибиотики повреждают почки и печень, в-третьих, человек остается источником инфекции для окружающих. При некоторых состояниях своевременное начало лечения может спасти человеку жизнь. Резистентность (устойчивость) бактерий к препарату приводит к тысячам смертей ежегодно.

Задача компании АстраЗенека — создать базу научных работ, рассматривающих тему резистентности бактерий к антибиотикам.

Цель:

  • помочь врачам выбирать оптимальный препарат для лечения бактериального заболевания
  • дать ученым базу знаний о резистентности бактерий для дальнейших научных исследований.

Для задачи АстраЗенека Yandex Data Factory создал специальный поисковый сервис, определяющий релевантные документы с соответствующими сведениями. Алгоритм обрабатывает только те документы, которые находятся в открытом доступе.

Требования к документам

Чтобы документ попал в базу, у него должна быть соответствующая тематика и структура:

  • основная тема научно-исследовательской работы — устойчивость к антибиотикам
  • самостоятельность труда — поисковый сервис фильтрует обзорные публикации, рецензии, аннотации к научным работам, а также клинические рекомендации, статьи, не являющиеся исследовательскими трудами.
  • документ содержит описания применяемых исследовательских методов, инструментов, материалов.

Оценка релевантности

Специфика темы «резистентность к антибиотикам» не позволила применить стандартную поисковую модель к сбору данных для фармацевтической компании. Для этого Yandex Data Factory разработала новую модель, которая производит поиск по документам в два этапа:

  • первый этап — алгоритм выделяет из индекса Яндекса документы, содержащие правильные комбинации ключевых слов (названия препаратов и бактерий) — так удалось получить 60 тысяч условно релевантных документов
  • второй этап — ранжирование документов по степени соответствия требованиям. В данном конкретном случае ключевые слова становятся плохим маркером соответствия, так как, учитывая слова в тексте, система может признать высокорелевантным школьный реферат и отфильтровать достойный научный труд.

Для того чтобы алгоритм правильно отранжировал документы, эксперты Yandex Data Factory научили его думать как ученый и учитывать иные факторы ранжирования — концентрация ключевых слов, применение определенных стоп-слов.

ранжирование результатов в Yandex Data Factory

Выполнение поставленной задачи мало зависит от самих факторов ранжирования. Чтобы рассортировать документ правильно, алгоритм устанавливает сложные взаимосвязи между наличием факторов и степенью релевантности документа.

Чтобы обучить алгоритм правильно оценивать релевантность документов, Yandex Data Factory привлекли асессоров — сотрудников АстраЗенека, которым демонстрировались рандомные документы из выборки. Задача сотрудников — определить, релевантны работы или нет.

Результаты исследования

Для оценки качества поиска использовались оценки асессоров. Из первой тысячи документов, выданных алгоритмом, релевантными признаны 579 (57,9%).

В первую тысячу попали 94,8% документов, которые сами сотрудники компании отнесли к релевантным.

При запуске проекта удовлетворительным количеством релевантных документов в выдаче считалось 20%. Соответственно, созданный алгоритм справился с задачей и превзошел ожидания разработчиков.

Что из этого следует?

За машинным обучением будущее. Алгоритм адаптируется под любые задачи. Вносимые изменения в условия поиска не сказываются на качестве ответа. Алгоритм учится выделять факторы, определяющие максимальную релевантность документа. Это улучшает качество поиска и ответа системы на запрос пользователя.

Добавить комментарий

Войти с помощью: 

Статьи по теме

Как рассчитать ROI
Справочник оптимизатора
ROI
ROI — термин, используемый для обозначения прибыли или убытков бизнеса, с учетом финанс...
микроконтент
Справочник оптимизатора
Микроконтент: роль на сайте
Микроконтент — короткие текстовые фрагменты, представленные вне основного контекста. Ег...