Infraestructura para el procesamiento y análisis en algoritmos dirigido para Machine Learning.
Fecha
2025-11-13
Autores
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Politécnica Estatal del Carchi - Biblioteca General "Luciano Coral"
Resumen
El
presente Trabajo de Integración Curricular diseñado abordo el diseño e
implementación de una infraestructura tecnológica distribuida simulada, enfocada
al procesamiento de algoritmos de Machine Learning en entornos universitarios. El
principal objetivo fue construir un entorno funcional y replicable que mejore el
rendimiento y la eficiencia en el entrenamiento de modelos de aprendizaje
automático. La metodología utilizada fue de tipo mixta, mediante revisión
documental y encuestas a estudiantes, lo cual permitió diagnosticar el estado actual
de los laboratorios académicos y validar la pertinencia de la propuesta. Esta
implementación se realizó en el único nodo maestro que tiene un sistema operativo
CentOS 9, y se le empleo Apache Hadoop 3.3.6, que es un software que divide los
datos en bloques de 128 MB y los replica para garantizar tolerancia a fallos, permite
escalabilidad horizontal y utiliza HDFS como sistema de almacenamiento distribuido
junto con YARN como gestor de recursos. Estuvo apoyado en el modelo MapReduce,
el cual separa las tareas en fases de mapeo y reducción, optimizando el análisis de
datos en paralelo. también se integró Apache Spark 3.4.1 con PySpark, cuyo motor
de ejecución en memoria reduce significativamente los tiempos de respuesta. En este
trabajo se implementó ejemplos prácticos con MLlib, como el conteo de palabras en
un archivo de 100 caracteres y ejercicios básicos de clasificación, esto permitió
validar el funcionamiento del procesamiento distribuido. Cabe destacar que Spark
también ofrece otras librerías como Spark SQL para consultas estructuradas y Spark
Streaming para procesamiento en tiempo real, respaldadas por un planificador
basado en DAG (Directed Acyclic Graph) que optimiza la ejecución de tareas
distribuidas. Se determino que este modelo es viable, económico y adaptable para
universidades que buscan fortalecer sus capacidades investigativas en ciencia de
datos e inteligencia artificial, impulsando la transformación digital en la educación
superior.
Descripción
Palabras clave
Machine Learning, Computación Distribuida , Apache Hadoop, Apache Spark, PySpark.

