Infraestructura para el procesamiento y análisis en algoritmos dirigido para Machine Learning.

Fecha

2025-11-13

Título de la revista

ISSN de la revista

Título del volumen

Editor

Universidad Politécnica Estatal del Carchi - Biblioteca General "Luciano Coral"

Resumen

El presente Trabajo de Integración Curricular diseñado abordo el diseño e implementación de una infraestructura tecnológica distribuida simulada, enfocada al procesamiento de algoritmos de Machine Learning en entornos universitarios. El principal objetivo fue construir un entorno funcional y replicable que mejore el rendimiento y la eficiencia en el entrenamiento de modelos de aprendizaje automático. La metodología utilizada fue de tipo mixta, mediante revisión documental y encuestas a estudiantes, lo cual permitió diagnosticar el estado actual de los laboratorios académicos y validar la pertinencia de la propuesta. Esta implementación se realizó en el único nodo maestro que tiene un sistema operativo CentOS 9, y se le empleo Apache Hadoop 3.3.6, que es un software que divide los datos en bloques de 128 MB y los replica para garantizar tolerancia a fallos, permite escalabilidad horizontal y utiliza HDFS como sistema de almacenamiento distribuido junto con YARN como gestor de recursos. Estuvo apoyado en el modelo MapReduce, el cual separa las tareas en fases de mapeo y reducción, optimizando el análisis de datos en paralelo. también se integró Apache Spark 3.4.1 con PySpark, cuyo motor de ejecución en memoria reduce significativamente los tiempos de respuesta. En este trabajo se implementó ejemplos prácticos con MLlib, como el conteo de palabras en un archivo de 100 caracteres y ejercicios básicos de clasificación, esto permitió validar el funcionamiento del procesamiento distribuido. Cabe destacar que Spark también ofrece otras librerías como Spark SQL para consultas estructuradas y Spark Streaming para procesamiento en tiempo real, respaldadas por un planificador basado en DAG (Directed Acyclic Graph) que optimiza la ejecución de tareas distribuidas. Se determino que este modelo es viable, económico y adaptable para universidades que buscan fortalecer sus capacidades investigativas en ciencia de datos e inteligencia artificial, impulsando la transformación digital en la educación superior.

Descripción

Palabras clave

Machine Learning, Computación Distribuida , Apache Hadoop, Apache Spark, PySpark.

Citación

Logo UPEC

Dirección: Calle Antisana y Av. Universitaria

Email: info@upec.edu.ec

Telf: (06) 2980 837 - 2984 435

Normatividad Institucional

Redes Sociales

Marca Principal

© Todos los derechos reservados 2023

Universidad Politécnica Estatal del Carchi

Universidad Politécnica Estatal del Carchi | Acreditada por el CACES Resolución N°. 160-SE-33-CACES-2020