000 02943nmm a2200253 a 4500
008 160202e2018 ck |||fq||d| 00| 0 spa d
082 0 4 _a006
_bV297m
_223
100 1 _aVargas Antolínez, Edwin Alberto.
_922570
245 1 3 _aModelado basado en datos para la clasificación semiautomática de correspondencia electrónica: Caso de estudio para la Administración Pública Colombiana
_h[Recurso Electrónico] /
_cEdwin Alberto Vargas Antolínez.
260 _aBogotá (Colombia):
_bEscuela Colombiana de Ingeniería Julio Garavito,
_c2018
300 _a107 paginas.
_bgráficos.
502 1 _aTesis (Magíster en Gestión de Información)
520 1 _aEl uso de correo electrónico a nivel de las organizaciones, como canal de comunicación en procesos de servicio y atención al cliente, ha crecido en los últimos tiempos. Por tanto, las organizaciones han debido implementar procesos focalizados en organizar dichos correos de acuerdo con la temática esencial transmitida en ellos, para así dar una respuesta eficiente ante las solicitudes de los clientes. Una manera de abordar el problema es a través de la categorización de la correspondencia electrónica mediante la extracción del contenido textual en corpus de palabras determinantes (Minería de Texto) que se usan para una posterior clasificación de los correos con técnicas de aprendizaje automático de máquinas (Machine Learning). Este proyecto presenta un enfoque metodológico que evalúa diversos algoritmos de clasificación con técnicas de muestreo aleatorio simple sobre una población de documentos (correos) del registro de correspondencia del Departamento Administrativo de la Función Pública en Colombia, como caso de estudio. La investigación se detalla en un sistema paso a paso, desde el preprocesamiento de la información, reducción de la dimensionalidad, selección de diversas muestras hasta la aplicación de algoritmos de clasificación. El modelado incluye un benchmarking entre diversos algoritmos: clasificadores de tipo Naive Bayesianos, máquinas de soporte vectorial (SVM) y Boosting. Se propone, además, una arquitectura funcional semiautomática que puede escalarse en futuro en un sistema productivo de gran manejo de datos en tiempo real (streaming) basada en R, Spark y MapReduce. El modelo se pone a prueba logrando valores de “accuracy” superiores al 90% que soportan una buena Línea Base para soluciones en producción para el enfoque empleado en esta investigación.
650 0 _aMINERÍA DE DATOS
_9290
650 0 _aALGORITMOS DE CLASIFICACIÓN
_941472
650 0 _aAPRENDIZAJE DE MÁQUINA.
_92568
650 0 _aCLASIFICACIÓN DE CORRESPONDENCIA
_914302
650 0 _aTESIS Y DISERTACIONES ACADÉMICAS
_9931
700 _aOspina, Victoria Eugenia
_edirector.
_940853
700 _aConti, Dante
_edirector.
_941473
856 _uhttps://repositorio.escuelaing.edu.co/handle/001/829
942 _2ddc
_cTE
999 _c21550
_d21550