Модель не просто генерирует новые молекулы в виртуальном пространстве, но и полностью автоматизирует процесс их поиска и отбора. Программа работает с высокой точностью — почти 80% предложенных системой вариантов соответствуют заданным учеными критериям. Авторы уже протестировали систему и сгенерировали с ее помощью молекулы, которые в перспективе могут помочь в создании лекарств против болезней Паркинсона, Альцгеймера, рака легких и других. Ученые представили результаты исследования на конференции EMNLP 2025 в Китае.
Для разработки новых лекарств ученые ищут «хиты» — молекулы с заданной биологической активностью и подходящими физико-химическими свойствами. Традиционно это делают «вручную»: химики отбирают молекулы из баз данных, синтезируют их в лаборатории и проверяют на биологическую активность. Но у этого метода есть существенные недостатки: ученым приходится тратить много времени и ресурсов, а также выбирать среди ограниченного числа известных молекул.
Значительно удешевить и ускорить проведение дорогостоящих экспериментов можно, если доверить часть работы ИИ-инструментам. Однако многие из них обладают недостатками: одиночные LLM (например, LlaSMol, X-LoRA-Gemma, ChemDFM) способны выполнять только одну задачу (например, генерируют молекулы, но не могут проверить их свойства) и потому часто выдают бесполезные молекулы; а одноагентные системы, в которых все задачи решает только одна общая ИИ-модель, могут перегружаться и совершать ошибки (ChemAgent, ChemCrow, CACTUS).
Ученые из Центра «Сильный ИИ в промышленности», Центра ИИ в химии и научно-образовательного центра инфохимии ИТМО при индустриальной поддержке Сбера разработали мультиагентную систему для полной автоматизации процесса поиска новых лекарственных молекул на основе естественно-языковых запросов. MADD (Multi-Agent Drug Discovery) состоит из четырех ИИ-агентов, которые поочередно решают различные задачи, например, анализируют текстовый запрос от исследователя, подбирают нужные алгоритмы, генерируют молекулы и рассчитывают их свойства, собирают полученные результаты в единый отчет. Каждый из агентов работает на основе больших языковых моделей: GPT-4o, Gemini 2.5 Flash-Lite, Llama-3.1-70b, GigaChat и других.
Каждую молекулу система проверяет по пяти критериям: биологической активности, сродству связывания, синтетической доступности, лекарственному подобию и отсутствию токсичности. Модель правильно распознает и выполняет запрос в 79,8% случаев. Это, как выяснили ученые, намного выше результатов зарубежного аналога ChemAgent, который выдает корректные результаты в 16,4% случаев.
Химики протестировали модель и с ее помощью нашли новые перспективные лекарственные молекулы для разработки лекарств против семи заболеваний: болезней Альцгеймера и Паркинсона, рассеянного склероза, рака легких, тромбоцитопении, дислипидемии (нарушения липидного обмена), а также устойчивости к препаратам против рака. В том числе химики впервые сгенерировали сразу пять перспективных молекул, которые борются с белками, связанными с развитием заболеваний, чего раньше сделать не удавалось. Некоторые найденные молекулы превосходят существующие аналоги по биологической активности, сродству связывания и синтетической доступности. Чтобы исследовать найденные молекулы, их синтезируют в лаборатории и проверят в реальных экспериментах.
«Научно-образовательный центр инфохимии работал над кейсами, связанными с дислипидемией, болезнью Паркинсона и лекарственной устойчивостью к препаратам для лечения рака. Для этого мы подготовили модели для предсказания биологической активности молекул по каждому кейсу, а также создали отдельный модуль для расчета сродства связывания — параметра, который показывает, как белок будет связываться с малыми молекулами», — рассказал инженер исследовательского центра «Сильный искусственный интеллект в промышленности» ИТМО Родион Головинский.
«Команда Центра ИИ в химии подготовила половину кейсов, связанных с разработкой молекул против болезни Альцгеймера, рассеянного склероза, рака легкого, а также валидационный кейс тромбоцитопении. Для этого мы проанализировали научную литературу по соответствующим заболеваниям и мишеням, подготовили датасеты, обучили предсказательные модели, оценили качество предсказаний и создали инструменты для языковых агентов. Ценность этой работы заключается в том, что мы одни из первых в мире показали эффективность мультиагентных систем для задач ранней разработки лекарственных средств», — рассказал руководитель Центра ИИ в химии ИТМО Андрей Дмитренко.
Модель полностью открыта: код и данные опубликованы на GitHub, а провести тестирование можно на Hugging Face. Инструмент будет полезен академическим исследователям и небольшим биотех-стартапам, у которых нет ресурсов на дорогостоящие платформы, химикам в фармацевтических компаниях, студентам и преподавателям.
«Наша модель не просто генерирует новые молекулы, но и полностью автоматизирует весь цикл поиска — от анализа текстового запроса пользователя до выдачи готового списка перспективных кандидатов с рассчитанными свойствами. В наших тестах модель превзошла все существующие аналоги по точности и эффективности. Кроме того, система способна к обобщению информации для решения незнакомых задач без опоры на другие примеры: MADD успешно подобрала молекулы для лекарств против тромбоцитопении, хотя этот кейс не был известен на этапе разработки системы», — подчеркнула старший научный сотрудник исследовательского центра «Сильный искусственный интеллект в промышленности» ИТМО Анна Калюжная.

Проект выполнен при индустриальной поддержке Сбера. Специалисты из Центра практического искусственного интеллекта Сбера обеспечили экспертизу и валидацию разработанного пайплайна генерации молекул, подтвердив корректность мультиагентной системы.
Первый автор статьи, аспирант исследовательского центра «Сильный искусственный интеллект в промышленности» Глеб Соловьев выступил с разработкой на конференции по эмпирическим методам обработки естественного языка EMNLP 2025 в Китае — самой престижной в своей области. Участники представили доклады по диалоговым системам и распознаванию именованных сущностей, обсудили темы в сфере конфиденциальности ИИ, этики в компьютерной лингвистике и влияния больших языковых моделей на общество.
Источник: ITMO NEWS