«Россия обладает потенциалом для создания качественных технологий» Что выяснили отечественные ученые и как это отразится на нашей стране?
Завершилась 18 Международная научная конференция по рекомендательным системам ACM RecSys 2024. На ней свои исследования представили ученые со всего мира. Россия вошла в топ-10 стран по количеству заявленных работ. При этом шесть из семи российских научных статей были опубликованы совместно с научным партнером – Институтом AIRI. Каковы же результаты данной конференции? Какое влияние они окажут на страну и её жителей?
«Лента.ру»: В прошлом году российские ученые также принимали участие в конференции. Что изменилось с тех пор?
Максим Савченко: На RecSys мы представляем доклады с 2021 года, и заметно, как увеличивается количество статей китайских исследователей. Если раньше в этой области лидировали ученые из… , то в этом году коллеги из … практически сравнялись с ними.
Выступления нашего учреждения всегда были довольно заметными. Три года назад статья нашей лаборатории на RecSys была единственной от России. В этом году наша страна представила уже семь научных трудов, в шести из которых участвовали исследователи Сбер и Института AIRI. По количеству поданных работ Россия вошла в топ-10 стран, что крайне важно.
Отметим, что на подобных конференциях большую роль играют крупные технологические компании. Организаторы начали под них подстраиваться, появляются новые воркшопы с практическими тематиками, количество принятых статей на индустриальных треках также растет и т.д. Научные конференции трансформируются в научно-технические, растет фокус на применение открытий в реальной жизни.
Каковы перспективы исследовательских работ ученых Сбер?
Исследования Лаборатории искусственного интеллекта Сбер в первую очередь решают актуальные задачи бизнеса. За основу взят подход НИИ космической индустрии времен Королева и Келдыша, который мы адаптировали к современным условиям.
Например, наша статья, попавшая в список лучших на конференции, была посвящена вопросам оценки качества и повышения эффективности последовательных рекомендаций (sequential recsys), которые позволяют предсказывать возможные будущие покупки человека на основе предыдущих. Благодаря этому пользователи онлайн-сервисов получают подходящие рекомендации по товарам, услугам или аудиоконтенту.
Для создания подборок рекомендаций сейчас активно и с большой результативностью используются специализированные большие языковые модели. Они построены на тех же технологиях, что и GigaChat или ChatGPT, но обучаются на специализированных задачах вроде анализа потребностей клиентов. Идея в том, что в какой-то мере жизненные траектории клиентов определяются их действиями.
Например, если у человека в России есть автомобиль, ему точно потребуется зимняя резина (если, конечно, он не пользуется машиной только в теплый сезон). При решении таких задач важно не забывать, что будущее не предопределено, но некоторые закономерности поведения клиентов можно выделить, и это полезно и взаимовыгодно (win-win) как для бизнеса, так и для клиента.
Вторая интересная статья, которую мы подготовили вместе с коллегами из AIRI и Сколтеха, касается развития федерального машинного обучения. Наш подход позволяет повышать качество ряда моделей без прямого обмена данными с клиентами. Дело в том, что для обучения искусственного интеллекта чаще всего нужны не сами данные (доход человека, история его болезней или другое), а информация об этих данных, которую в науке называют метаданными.
Кроме того, если такие метаданные зашифровать, при некоторых условиях обученная на них модель будет неотличима от построенной на исходных данных. Это очень интересное направление, которое требует тесного сотрудничества самых различных специалистов — от экспертов по машинному обучению до криптографов.
Остальные статьи, которые мы представили на конференции, также имели прикладной характер. И готовили мы их с активным вовлечением исследователей из реального бизнеса.
Какую пользу людям могут принести исследования в области рекомендательных систем?
Прежде всего, например, экономию времени при покупках и грамотных подсказок, рекомендации могут сократить экономику массы ресурсов. Один из докладов конференции касался того, как на основе анализа покупок на маркетплейсах понять, а что, собственно, необходимо клиентам, чтобы выработать описание и даже техническое задание на производство необходимых товаров.
Помните, как в комедии герой спрашивает: «А у вас нет такого же, но с перламутровыми пуговицами?». В наше время благодаря искусственному интеллекту следующая партия халатов была бы уже с перламутровыми пуговицами, если это действительно необходимо клиентам.
Также важно понимать, что прогресс в одной области машинного обучения не редко помогает лучше решать задачи в другой. Например, прорывы в рекомендательных системах могут улучшить качество постановки медицинских диагнозов с учетом истории болезней человека. Удивительно, но математика в обоих случаях оказывается схожей: и постановка диагноза на основе истории болезни, и задачи рекомендаций основываются на аналогичных математических принципах.
Есть ли отличия между российскими и зарубежными подходами в исследованиях?
Методология универсальна. Однако есть специфика. Если немаленькая часть статей в Китае, США и странах Европы идет от крупных корпораций, активно инвестирующих в науку, то в России огромную роль играют банки. За границей это вызывает удивление, так как в большинстве стран финансовые организации — крайне консервативные структуры.
Второе отличие: некоторые подходы, востребованные на глобальном рынке, в нашей стране не всегда нужны. Если для рынка с миллиардами пользователей имеет смысл оптимизировать метрики второго или даже третьего порядка (т.е. величины, от которых зависит основная бизнес-метрика), то, например, при 100 миллионах клиентов это, скорее всего, не окупится. Чтобы исследования приносили пользу, в первую очередь надо решать собственные задачи.
Конечно, у мировых техногентов размах инвестиций в науку и технологии намного больше. Но Россия, если говорить о прошедшей конференции, уже вошла в десятку стран по докладам, и я надеюсь, что наши позиции в рейтинге будут только улучшаться. К этому есть все предпосылки. Например, в этом году на масштабном соревновании GrandPrix по AutoML наша команда с решением LightAutoml обошла H2O. Создавать качественные технологии в России точно умеют. Но инновации должны превращаться в коммерчески успешные продукты, и здесь нам надо поработать.
Что нужно ученому, чтобы эффективно проводить такие исследования?
Нужны компетенции, идеи и сильная команда. На предыдущих конференциях хорошо видно, что время одиночек прошло. Еще нужна тесная связь науки с практикой. Именно она выступает источником оригинальных задач и дает необходимую обратную связь. Также необходимы данные и бенчмарки, ведь идеи надо на чем-то проверять и как-то оценивать. Чтобы делать все перечисленное, требуются вычислительные ресурсы. И чем дальше, тем больше.
В конечном итоге на все это нужны инвестиции. Поэтому вопрос экономической эффективности исследований сейчас бесспорно стоит не только менеджеров корпораций, но и тех, кто занимается исследованиями. Наука не всегда может себя окупить. Поэтому в портфеле задач должны быть такие, которые окупят все остальное и с запасом.
Можно называть это как угодно: корпоративными лабораториями, отраслевыми НИИ, научно-производственными объединениями или национальными исследовательскими центрами. Это иная форма организации науки, ей требуются серьезные инженерные и проектные компетенции. И она очень нужна России, чтобы наши люди могли пользоваться научными достижениями в своей повседневной жизни.