Infraestructura para el procesamiento y análisis en algoritmos dirigido para Machine Learning.

dc.contributor.advisorHidalgo Guijarro, Jairo Vladimir
dc.contributor.authorBorja González, Justin Snayder
dc.date.accessioned2025-11-13T20:44:56Z
dc.date.available2025-11-13T20:44:56Z
dc.date.issued2025-11-13
dc.description.abstractEl presente Trabajo de Integración Curricular diseñado abordo el diseño e implementación de una infraestructura tecnológica distribuida simulada, enfocada al procesamiento de algoritmos de Machine Learning en entornos universitarios. El principal objetivo fue construir un entorno funcional y replicable que mejore el rendimiento y la eficiencia en el entrenamiento de modelos de aprendizaje automático. La metodología utilizada fue de tipo mixta, mediante revisión documental y encuestas a estudiantes, lo cual permitió diagnosticar el estado actual de los laboratorios académicos y validar la pertinencia de la propuesta. Esta implementación se realizó en el único nodo maestro que tiene un sistema operativo CentOS 9, y se le empleo Apache Hadoop 3.3.6, que es un software que divide los datos en bloques de 128 MB y los replica para garantizar tolerancia a fallos, permite escalabilidad horizontal y utiliza HDFS como sistema de almacenamiento distribuido junto con YARN como gestor de recursos. Estuvo apoyado en el modelo MapReduce, el cual separa las tareas en fases de mapeo y reducción, optimizando el análisis de datos en paralelo. también se integró Apache Spark 3.4.1 con PySpark, cuyo motor de ejecución en memoria reduce significativamente los tiempos de respuesta. En este trabajo se implementó ejemplos prácticos con MLlib, como el conteo de palabras en un archivo de 100 caracteres y ejercicios básicos de clasificación, esto permitió validar el funcionamiento del procesamiento distribuido. Cabe destacar que Spark también ofrece otras librerías como Spark SQL para consultas estructuradas y Spark Streaming para procesamiento en tiempo real, respaldadas por un planificador basado en DAG (Directed Acyclic Graph) que optimiza la ejecución de tareas distribuidas. Se determino que este modelo es viable, económico y adaptable para universidades que buscan fortalecer sus capacidades investigativas en ciencia de datos e inteligencia artificial, impulsando la transformación digital en la educación superior.
dc.formatapplication/pdf
dc.format.extent94 páginas
dc.identifier.urihttps://repositorio.upec.edu.ec/handle/123456789/3040
dc.language.isospa
dc.publisherUniversidad Politécnica Estatal del Carchi - Biblioteca General "Luciano Coral"
dc.publisher.countryEC
dc.rightsinfo:eu-repo/semantics/openAccess
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/
dc.subjectMachine Learning, Computación Distribuida , Apache Hadoop, Apache Spark, PySpark.
dc.subject.ocdehttp://purl.org/pe-repo/ocde/ford#1.02.00
dc.titleInfraestructura para el procesamiento y análisis en algoritmos dirigido para Machine Learning.
dc.typeinfo:eu-repo/semantics/bachelorThesis
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
thesis.degree.disciplineCARRERA DE COMPUTACIÓN
thesis.degree.grantorUniversidad Politécnica Estatal del Carchi
thesis.degree.nameIngeniero en Ciencias de la Computación

Archivos

Bloque original

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
162- Borja González Justin Snayder.pdf
Tamaño:
2.91 MB
Formato:
Adobe Portable Document Format

Bloque de licencias

Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
1.27 KB
Formato:
Item-specific license agreed upon to submission
Descripción:
Logo UPEC

Dirección: Calle Antisana y Av. Universitaria

Email: info@upec.edu.ec

Telf: (06) 2980 837 - 2984 435

Normatividad Institucional

Redes Sociales

Marca Principal

© Todos los derechos reservados 2023

Universidad Politécnica Estatal del Carchi

Universidad Politécnica Estatal del Carchi | Acreditada por el CACES Resolución N°. 160-SE-33-CACES-2020