Resumen:
El objetivo principal del presente proyecto es diseñar un Data Lake en AWS Lake Formation para mejorar el almacenamiento y el acceso de los datos. En este se muestra una propuesta para resolver los diferentes problemas que se enfrentan con el manejo de los datos, la principal causa se centra en los riesgos que representan almacenar volúmenes de datos de diferentes fuentes, no tener un acceso rápido a los datos para todos los usuarios, falta de confianza y seguridad y al mismo tiempo que aumenta la cantidad de datos también aumenta la cantidad de equipos que se necesitan.
Al implementarlo, se va poder dar más valor a los datos para tomar mejores decisiones, porque cualquier tipo de usuario podrá acceder a los datos, no se necesita tener conocimiento técnico para visualizarlos.
En este sentido, los datos utilizados para implementar dicho proyecto son demográficos de doctores en USA, son más de 1 millón usados para realizar la propuesta ((CMS), 2018).
Asimismo, se va a demostrar por qué se escogió Cloud para almacenamiento de los datos y por qué se incluyó Amazon S3 como proveedor en la nube para esta implementación.
En esta propuesta se indica la necesidad de la creación de un Data Lake, los beneficios que ofrece y los prerrequisitos necesarios para lograr implementar este proyecto.
Además, para lograr esta implementación se utilizó la técnica de análisis ICAV, basada en 4 fases que facilitaron el estudio de los datos y el logro de los objetivos.
El diseño de la investigación es aplicado, se va a resolver un problema presente, para lo cual se necesitó investigación para ser desarrollado.
Esta propuesta se realizó con una empresa ficticia.