Resumen
Esta tesis tiene como propósito la investigación y desarrollo de métodos para evaluar dos problemas especialmente importantes en repositorios multi-sitio masivos adquiridos durante largos periodos de tiempo: (1) la variabilidad de las distribuciones de probabilidad de los datos entre diferentes fuentes o sitios---variabilidad multi-fuente---y (2) la variabilidad de las distribuciones de probabilidad de los datos a lo largo del tiempo---variabilidad temporal. Esta variabilidad puede estar causada por diferencias en los métodos de adquisición de datos, protocolos o políticas de atención sanitaria; a errores sistemáticos o aleatorios durante la entrada o gestión de datos; diferencias geográficas o demográficas en las poblaciones; o incluso por falsificaciones en los datos. Si esta variabilidad no es gestionada, puede complicar el análisis de los datos, sesgar los resultados, o minimizar la generalización de modelos o hipótesis basadas en los datos.