Click here for instructions in English.
verdata
es un paquete de R
que está pensado como una herramienta para el uso y análisis de los datos de conflicto armado en Colombia. Estos datos derivan del proyecto conjunto JEP-CEV-HRDAG, los cuales, a través del paquete, pueden ser analizados utilizando tres conjuntos de funciones: En primer lugar, las personas interesadas pueden utilizar verdata
para verificar que están utilizando los datos originalmente publicados, es decir, permite autenticar tanto los archivos como su contenido. Segundo, pueden usar verdata
para replicar los principales resultados del proyecto conjunto JEP-CEV-HRDAG. Finalmente, para el tercer conjunto, pueden utilizar verdata
para diseñar sus propios análisis estadísticos de patrones de violencia que abordan los dos tipos de datos faltantes presentes en el proyecto (campos faltantes y registros faltantes).
Se pueden descargar los datos sobre las cuatro violaciones a los derechos humanos que se trabajaron en el proyecto: desaparición, homicidio, secuestro y reclutamiento de niños, niñas y adolescentes, los cuales se encuentran en el sitio web del Departamento Administrativo Nacional de Estadística (DANE). Estos datos corresponden a 100 réplicas para cada violación, los cuales fueron producto del proceso de imputación estadística múltiple de campos faltantes (ver sección 4 del informe metodológico del proyecto). Además, el repositorio verdata-examples
contiene ejemplos que ilustran cómo usar correctamente estos datos (réplicas) a través del paquete previamente mencionado.
Se puede instalar la versión la versión en desarrollo de verdata
desde GitHub así:
if (!require("devtools")) {install.packages("devtools")}
devtools::install_github("HRDAG/verdata")
verdata
requiere algunos paquetes como dependencia. Para esto es recomendable la instalación del GNU Scientific Library. Es posible que necesite instalar esta librería en su computadora por separado antes de instalar verdata
.
verdata
presenta dos data frames que contienen información relacionada con el diccionario de datos de las réplicas. En diccionario_replicas
encontrará la definición de cada una de las variables que se encuentran allí y, en diccionario_vars_adicional
, encontrará nuevas variables que fueron usadas en algunos análisis estadísticos durante la construcción del informe final de la CEV.
Para el uso de este paquete es necesario haber descargado previamente los datos de alguno de los sitios en los que se encuentran publicados. Este paquete ofrece al público 8 funciones para el tratamiento de los datos, divididas así:
-
La función
confirm_files
permite autenticar que los archivos descargados correspondan exactamente a los archivos originalmente publicados. Esta función acepta archivos en cualquiera de los dos formatos publicados (parquet
ocsv
). -
Además, la función
read_replicates
permite autenticar el contenido de los archivos, así como importar el número deseado de réplicas aR
. Esta función acepta archivos en cualquiera de los dos formatos publicados (parquet
ocsv
).
- Para sus análisis en violaciones a derechos humanos, la Comisión de la Verdad especificó diferentes períodos y condiciones. En caso de querer replicar los resultados del Informe Final de la CEV, es necesario aplicar estos mismos filtros a los datos. El uso de la función
filter_standard_cev
es opcional y permite filtrar los datos del mismo modo que la CEV lo hizo, dependiendo de la violación a derechos humanos a analizar.
- La función
summary_observed
ofrece un conteo del número observado de víctimas -totales o agrupadas por diferentes variables- antes de la imputación estadística de campos faltantes. El número que se obtiene es la media entre las diferentes réplicas.
- La función
combine_replicates
usa la aproximación normal usando las reglas de total expectativa y varianza para combinar las réplicas, lo que permite obtener un intervalo de la imputación. Ver sección 18.2 de Bayesian Data Analysis para más información.
-
La función
estimates_exist
permite validar si la estimación de los estratos de interés ya existen, y se encuentran en los archivos de estimaciones precalculadas publicados, que deben haber sido previamente descargados del sitio de la Comisión. Esta función requiere los datos estratificados y el directorio en el que se encuentran las estimaciones precalculadas y devolverá un valor lógico que indica si la estimación existe o no, y la ruta en la que se encuentra, en caso de que exista. En caso de que usted quiera replicar los resultados de la Comisión de la Verdad, los objetos de datosestratificacion
(en español) ystratification
(en inglés) especifican qué estratificaciones se usaron para cada estimación presente en el informe metodológico del proyecto. -
La función
mse
permite hacer estimaciones del subregistro, usando el modelo de LCMCR (ver sección 6 del informe metodológico del proyecto). Para usar esta función es necesario haber definido variables de estratificación, es decir, agrupación, para hacer la estimación y haber hecho la estratificación (ver ejemplo y sección 8.4.2 del informe metodológico del proyecto). Además, considerando que la estimación requiere de tiempo y recursos computacionales, en caso de querer hacer uso de las estimaciones ya calculadas por el equipo, es necesario haberlas descargado del sitio de la Comisión a su máquina local. Esta función requiere como insumo los datos ya estratificados y el directorio en el que se encuentran las estimaciones publicadas -en caso de querer hacer uso de estas-. Tenga presente que al proveer un directorio la función asume las mismas especificaciones para el modelo usadas en el proyecto. Si usted quiere usar otras especificaciones, no debe suministrar un directorio a las estimaciones. -
Por último, la función
combine_estimates
permite combinar los resultados de la estimación, lo que, una vez más, dará como resultado un intervalo (que incluye la media). Usa la aproximación normal usando las reglas de total expectativa y varianza. Ver sección 18.2 de Bayesian Data Analysis para más información.
Agradecemos a Micaela Morales por su atenta prueba beta.
Contribuciones y sugerencias siempre son bienvenidas. Si tiene un problema, pregunta o duda sobre verdata
puede abrir un issue en GitHub. Si quiere contribuir nueva funcionalidad puede abrir un pull request. La integración continua está configurada para ejecutar las pruebas automáticamente cuando abre un pull request. Si desea ejecutar las pruebas localmente antes de abrir un pull request, puede hacerlo con testthat::test_local()
.
Se puede citar el paquete como:
Gargiulo et al., (2024). verdata: An R package for analyzing data from the Truth Commission in Colombia. Journal of Open Source Software, 9(93), 5844, https://doi.org/10.21105/joss.05844.
Entrada de BibTex:
@article{Gargiulo2024,
doi = {10.21105/joss.05844},
url = {https://doi.org/10.21105/joss.05844},
year = {2024},
publisher = {The Open Journal},
volume = {9},
number = {93},
pages = {5844},
author = {Maria Gargiulo and María Juliana Durán and Paula Andrea Amado and Patrick Ball},
title = {verdata: An R package for analyzing data from the Truth Commission in Colombia},
journal = {Journal of Open Source Software}
}