Infraestructura para el procesamiento y análisis en algoritmos dirigido  para Machine Learning.

Borja González, Justin Snayder

Infraestructura para el procesamiento y análisis en algoritmos dirigido para Machine Learning.

dc.contributor.advisor	Hidalgo Guijarro, Jairo Vladimir
dc.contributor.author	Borja González, Justin Snayder
dc.date.accessioned	2025-11-13T20:44:56Z
dc.date.available	2025-11-13T20:44:56Z
dc.date.issued	2025-11-13
dc.description.abstract	El presente Trabajo de Integración Curricular diseñado abordo el diseño e implementación de una infraestructura tecnológica distribuida simulada, enfocada al procesamiento de algoritmos de Machine Learning en entornos universitarios. El principal objetivo fue construir un entorno funcional y replicable que mejore el rendimiento y la eficiencia en el entrenamiento de modelos de aprendizaje automático. La metodología utilizada fue de tipo mixta, mediante revisión documental y encuestas a estudiantes, lo cual permitió diagnosticar el estado actual de los laboratorios académicos y validar la pertinencia de la propuesta. Esta implementación se realizó en el único nodo maestro que tiene un sistema operativo CentOS 9, y se le empleo Apache Hadoop 3.3.6, que es un software que divide los datos en bloques de 128 MB y los replica para garantizar tolerancia a fallos, permite escalabilidad horizontal y utiliza HDFS como sistema de almacenamiento distribuido junto con YARN como gestor de recursos. Estuvo apoyado en el modelo MapReduce, el cual separa las tareas en fases de mapeo y reducción, optimizando el análisis de datos en paralelo. también se integró Apache Spark 3.4.1 con PySpark, cuyo motor de ejecución en memoria reduce significativamente los tiempos de respuesta. En este trabajo se implementó ejemplos prácticos con MLlib, como el conteo de palabras en un archivo de 100 caracteres y ejercicios básicos de clasificación, esto permitió validar el funcionamiento del procesamiento distribuido. Cabe destacar que Spark también ofrece otras librerías como Spark SQL para consultas estructuradas y Spark Streaming para procesamiento en tiempo real, respaldadas por un planificador basado en DAG (Directed Acyclic Graph) que optimiza la ejecución de tareas distribuidas. Se determino que este modelo es viable, económico y adaptable para universidades que buscan fortalecer sus capacidades investigativas en ciencia de datos e inteligencia artificial, impulsando la transformación digital en la educación superior.
dc.format	application/pdf
dc.format.extent	94 páginas
dc.identifier.uri	https://repositorio.upec.edu.ec/handle/123456789/3040
dc.language.iso	spa
dc.publisher	Universidad Politécnica Estatal del Carchi - Biblioteca General "Luciano Coral"
dc.publisher.country	EC
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/
dc.subject	Machine Learning, Computación Distribuida , Apache Hadoop, Apache Spark, PySpark.
dc.subject.ocde	http://purl.org/pe-repo/ocde/ford#1.02.00
dc.title	Infraestructura para el procesamiento y análisis en algoritmos dirigido para Machine Learning.
dc.type	info:eu-repo/semantics/bachelorThesis
dc.type.version	info:eu-repo/semantics/acceptedVersion
thesis.degree.discipline	CARRERA DE COMPUTACIÓN
thesis.degree.grantor	Universidad Politécnica Estatal del Carchi
thesis.degree.name	Ingeniero en Ciencias de la Computación