Infraestructura para el procesamiento y análisis en algoritmos dirigido para Machine Learning.
| dc.contributor.advisor | Hidalgo Guijarro, Jairo Vladimir | |
| dc.contributor.author | Borja González, Justin Snayder | |
| dc.date.accessioned | 2025-11-13T20:44:56Z | |
| dc.date.available | 2025-11-13T20:44:56Z | |
| dc.date.issued | 2025-11-13 | |
| dc.description.abstract | El presente Trabajo de Integración Curricular diseñado abordo el diseño e implementación de una infraestructura tecnológica distribuida simulada, enfocada al procesamiento de algoritmos de Machine Learning en entornos universitarios. El principal objetivo fue construir un entorno funcional y replicable que mejore el rendimiento y la eficiencia en el entrenamiento de modelos de aprendizaje automático. La metodología utilizada fue de tipo mixta, mediante revisión documental y encuestas a estudiantes, lo cual permitió diagnosticar el estado actual de los laboratorios académicos y validar la pertinencia de la propuesta. Esta implementación se realizó en el único nodo maestro que tiene un sistema operativo CentOS 9, y se le empleo Apache Hadoop 3.3.6, que es un software que divide los datos en bloques de 128 MB y los replica para garantizar tolerancia a fallos, permite escalabilidad horizontal y utiliza HDFS como sistema de almacenamiento distribuido junto con YARN como gestor de recursos. Estuvo apoyado en el modelo MapReduce, el cual separa las tareas en fases de mapeo y reducción, optimizando el análisis de datos en paralelo. también se integró Apache Spark 3.4.1 con PySpark, cuyo motor de ejecución en memoria reduce significativamente los tiempos de respuesta. En este trabajo se implementó ejemplos prácticos con MLlib, como el conteo de palabras en un archivo de 100 caracteres y ejercicios básicos de clasificación, esto permitió validar el funcionamiento del procesamiento distribuido. Cabe destacar que Spark también ofrece otras librerías como Spark SQL para consultas estructuradas y Spark Streaming para procesamiento en tiempo real, respaldadas por un planificador basado en DAG (Directed Acyclic Graph) que optimiza la ejecución de tareas distribuidas. Se determino que este modelo es viable, económico y adaptable para universidades que buscan fortalecer sus capacidades investigativas en ciencia de datos e inteligencia artificial, impulsando la transformación digital en la educación superior. | |
| dc.format | application/pdf | |
| dc.format.extent | 94 páginas | |
| dc.identifier.uri | https://repositorio.upec.edu.ec/handle/123456789/3040 | |
| dc.language.iso | spa | |
| dc.publisher | Universidad Politécnica Estatal del Carchi - Biblioteca General "Luciano Coral" | |
| dc.publisher.country | EC | |
| dc.rights | info:eu-repo/semantics/openAccess | |
| dc.rights.uri | https://creativecommons.org/licenses/by/4.0/ | |
| dc.subject | Machine Learning, Computación Distribuida , Apache Hadoop, Apache Spark, PySpark. | |
| dc.subject.ocde | http://purl.org/pe-repo/ocde/ford#1.02.00 | |
| dc.title | Infraestructura para el procesamiento y análisis en algoritmos dirigido para Machine Learning. | |
| dc.type | info:eu-repo/semantics/bachelorThesis | |
| dc.type.version | info:eu-repo/semantics/acceptedVersion | |
| thesis.degree.discipline | CARRERA DE COMPUTACIÓN | |
| thesis.degree.grantor | Universidad Politécnica Estatal del Carchi | |
| thesis.degree.name | Ingeniero en Ciencias de la Computación |
Archivos
Bloque original
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- 162- Borja González Justin Snayder.pdf
- Tamaño:
- 2.91 MB
- Formato:
- Adobe Portable Document Format
Bloque de licencias
1 - 1 de 1
No hay miniatura disponible
- Nombre:
- license.txt
- Tamaño:
- 1.27 KB
- Formato:
- Item-specific license agreed upon to submission
- Descripción:

