Resumen:
Una de las mayores oportunidades de mejora que se encuentra hoy en día en las empresas está relacionada con la calidad de los datos. La mayoría de técnicas, herramientas y algoritmos que se encuentran han sido desarrollados para el manejo de palabras de uso cotidiano y nombres de personas.
La corrección de nombres de personas, dada la cantidad de variantes que pueden existir, no ha sido una tarea fácil y esta genera muchos problemas, los cuales pueden limitar la toma de decisiones, incluso la creación de nuevas aplicaciones que permitan agilizar los procesos tanto internos como externos en las organizaciones.
En el siguiente trabajo se presenta un nuevo algoritmo llamado GDS (Geometric Distance for Strings), que ubica espacialmente cadenas de texto en un espacio tridimensional, predefiniendo clústeres de valores similares. Al combinarse GDS con la función de similitud SIMIL se convierte en una solución efectiva y eficiente para la detección de datos duplicados, que representan nombres de personas.
Se realizaron evaluaciones con datos reales y una comparación con algoritmos existentes para validar los resultados. El algoritmo ha sido desarrollado en código abierto, con el fin de que se puedan realizar aportes futuros de cualquier otra persona que esté interesada en el tema.