Modelos de machine learning para predizer o potencial de fármacos para atuar no sistema nervoso central
Projeto apresentado como desafio final do curso Imersão de Dados - 3ª Edição - ALURA, sob a temática Data Science & Drug Discovery
O planejamento racional e descoberta de fármacos (do inglês "drug design & discovery") é um processo caro e demorado, levando de 10-20 anos e custando bilhões de dólares 1. Nas etapas iniciais deste processo é imprescíndivel fazer o uso de técnicas computacionais que permitam guiar e predizer as propriedades desejáveis para um candidato a fármaco (composto químico) sob estudo 2.
Drug-likeness é um termo - tradução literal do inglês "fármaco-similar" - usado, de modo geral, para indicar o quão similar é determinado composto químico à fármacos já conhecidos 3. Tal similaridade é avaliada em termos de propriedades físico-químicas e características estruturais (chamados descritores), e pressupõe-se da ideia de que quanto mais parecido, maior a chance de determinado composto vir a se tornar um fármaco 4.
Para se predizer a drug-likeness de compostos, existem diversas abordagens que vão desde simples regras/critérios até o uso de modelos matemáticos e estatísticos preditivos e mais complexos. Neste contexto, considerando o grande número de dados disponíveis atualmente, principalmente de diferentes descritores, o uso de machine learning torna-se bastante relevante 5.
Neste projeto, busquei desenvolver modelos de machine learning com vista à predição do potencial de novos compostos virem a ser fármacos que atuem no sistema nervoso central (SNC), ou seja, candidatos a fármacos para doenças neurodegenerativas e demais disturbios psiquiátricos, tais como doença de Alzheimer, Parkinson, depressão, ansiedade, dentre outras.
Para isso foi usado uma série de 1150 compostos previamente classificados como drogas do SNC (ou CNS drugs) e drogas sem habilidade de atuar no SNC (non-CNS drugs), extraídas da literatura 6. Calculou-se os descritores químicos destes compostos usando o nodo RDKit implementado no Knime 7 e foram usadas as seguintes técnicas de machine learning: regressão logística, árvore de decisão e random forest. Todos os modelos foram validadios com respeito as respectivas acurácias, a partir do uso de séries de treinamento e teste, bem como comparando-se com um modelo ingênuo que fora gerado.
- Uso de dataset com mais de mil fármacos separados em ativos e não-ativos no SNC.
- Comparação e análise de histogramas e boxplots de descritores fundamentais.
- 3 modelos de machine learning apresentando acurácias acima de 80%.
- Destaque para o modelo de random forest com 87% de acurácia.
- Demais refinamentos deverão ser feitos considerando-se as boas práticas de modelagem.
- [1] https://link.springer.com/article/10.1007/s00210-016-1216-8
- [2] https://link.springer.com/article/10.1007/s10822-016-9993-1
- [3] https://onlinelibrary.wiley.com/doi/abs/10.1002/3527603743.ch17
- [4] https://doi.org/10.3797/scipharm.0802-05
- [5] https://doi.org/10.3389/fchem.2018.00162
- [6] http://dx.doi.org/10.1021/acs.jmedchem.8b01388
- [7] RDKit: Open-source cheminformatics. http://www.rdkit.org
Author: Guilherme M. Silva (silvagm@usp.br)
PhD student from the Computational Laboratory of Pharmaceutical Chemistry (LCQF), at the FCFRP - USP Ribeirão Preto, Brazil