Repositorio para desarrollo de especialización de LLMs en el dominio biomédico. DIIC, Facultad de Informática UMU. Financiado por Beca Santander Iniciación a la Investigación UMU.
Los programas ahora están centrados en la investigación de técnicas RAG en el dominio biomédico.
Contenidos:
- Notebook: ficheros .ipynb que muestran y analizan códigos sobre RAG
- tutorials: tutoriales de las librerías utilizadas para el desarrollo de aplicaciones RAG, como Haystack.
- naive-1: primeros prototipos usando datasets privados de entrenamiento y test obtenidos de PubMed y modelos embedder para el dominio biomédico.
Otros: * Repositorio de fine-tuning de BERT para el aprendizaje sobre datasets de textos biomédicos: https://github.com/DgoMndez/DL-patogen-colab-DIIC * Datasets privados obtenidos de PubMed: https://huggingface.co/datasets/DingoMz/pubmed-hpo-pa-corpus.