Este estudo é uma introdução ao data Science, com o tema Drug Discovery. Foram utilizados dois arquivos. O primeiro contém informações de expressão de genes e viabilidade em experimentos com diferentes doses, moléculas e tempos de ação. O segundo, contém informações sobre os mecanismos de ação ativados em cada experimento.
As perguntas a serem respondidas utilizando a análise de dados e o machine learning são:
- As amostras estão balanceadas com relação aos parâmetros? (Tempo, dose, tratamento, droga)?
- Há drogas utilizadas em apenas uma amostra?
- As características de tempo e dose são uniformes nessas amostras?
- Há correlação entre as expressões dos genes, para os primeiros 50 genes?
- Há correlação entre as viabilidades das celulas, para aos 50 primeiros tipos de células?
- A correlação de viabilidade é maior ao analisar para cada droga (analisar controle e 2 drogas mais usadas)
- É possível obter um bom modelo para predizer a ocorrência de mecanismos de ativação com base nos dados?
- As informações de viabilidade celular melhoram ou pioram o modelo?
- É possível pum modelo de predição para a ativação de mecanismos específicos com base na expressão de genes e viabilidade?
- A expressão de genes seriam bons preditores da viabilidade celular?
##Modelos utilizados na pesquisa: LogisticRegression DecisionTreeClassifier RadomForestClassifier LinearRegression
##referências