Created by W.Langdon from gp-bibliography.bib Revision:1.8081
This Ph.D. thesis presents new computational models on data classification which address new open problems and challenges in data classification by means of evolutionary algorithms. Specifically, we pursue to improve the performance, scalability, interpretability and accuracy of classification models on challenging data. The performance and scalability of evolutionary-based classification models were improved through parallel computation on GPUs, which demonstrated to achieve high efficiency on speeding up classification algorithms.
The conflicting problem of the interpretability and accuracy of the classification models was addressed through a highly interpretable classification algorithm which produced very comprehensible classifiers by means of classification rules. Performance on challenging data such as the imbalanced classification was improved by means of a data gravitation classification algorithm which demonstrated to achieve better classification performance both on balanced and imbalanced data.
All the methods proposed in this thesis were evaluated in a proper experimental framework, by using a large number of data sets with diverse dimensionality and by comparing their performance against other state-of-the-art and recently published methods of proved quality. The experimental results obtained have been verified by applying non-parametric statistical tests which support the better performance of the methods proposed.",
En primer lugar, hemos analizado el rendimiento y la escalabilidad de los modelosevolutivos de reglas de clasificaci ́on, que han sido mejorados mediante el uso dela programaci ́on paralela en tarjetas gr ́aficas de usuario (GPUs). El empleo deGPUs ha demostrado alcanzar una gran eficiencia y rendimiento en la aceleraci ́onde los algoritmos de clasificaci ́on. La programaci ́on de prop ́osito general en GPUpara tareas de aprendizaje autom ́atico y miner ́ıa de datos ha resultado ser unnicho de investigaci ́on con un amplio abanico de posibilidades. El gran n ́umero depublicaciones en este campo muestra el creciente inter ́es de los investigadores en laaceleraci ́on de algoritmos mediante arquitecturas masivamente paralelas.
Los modelos paralelos desarrollados en esta Tesis Doctoral han acelerado algo-ritmos evolutivos poblacionales, paralelizando la evaluaci ́on de cada unos de losindividuos, adem ́as de su evaluaci ́on sobre cada uno de los casos de prueba dela funci ́on de evaluaci ́on. Los resultados experimentales derivados de los modelospropuestos han demostrado la gran eficacia de las GPUs en la aceleraci ́on de losalgoritmos, especialmente sobre grandes conjuntos de datos, donde anteriormenteera inviable la ejecuci ́on de los algoritmos en un tiempo razonable. Esto abre la puerta a la aplicaci ́on de esta tecnolog ́ıa a los nuevos retos de la d ́ecada en apren-dizaje autom ́atico, tales como Big Data y el procesamiento de streams de datos entiempo real.
En segundo lugar, hemos analizado la dualidad intpretabilidad-precisi ́on de los mo-delos de clasificaci ́on. Los modelos de clasificaci ́on han buscado tradicionalmentemaximizar ́unicamente la exactitud de los modelos de predicci ́on. Sin embargo,recientemente la interpretabilidad de los modelos ha demostrado ser de gran in-ter ́es en m ́ultiples campos de aplicaci ́on tales como medicina, evaluaci ́on de riesgoscrediticios, etc. En este tipo de dominios es necesario motivar las razones de laspredicciones, justificando las caracter ́ısticas por las que los modelos ofrecen talespredicciones. No obstante, habitualmente la b ́usqueda de mejorar la interpretabili-dad y la exactitud de los modelos es un problema conflictivo donde ambos objetivosno se pueden alcanzar simult ́aneamente.
El problema conflictivo de la interpretabilidad y exactitud de los modelos de clasifi-caci ́on ha sido tratado mediante la propuesta de un modelo de clasificaci ́on basadoen reglas interpretables, llamado ICRM, que proporciona reglas que producen re-sultados exactos y a la vez, son altamente comprensibles por su simplicidad. Estemodelo busca buenas combinaciones de comparaciones atributo-valor que compon-gan el antecedente de una regla de clasificaci ́on. Es responsabilidad del algoritmoevolutivo encontrar las mejores combinaciones y las mejores condiciones que com-pongan las reglas del clasificador.
En tercer lugar, hemos analizado conjuntos datos no balanceados. Este tipo de con-juntos de datos se caracterizan por el alto desbalanceo entre las clases, es decir, eln ́umero de instancias que pertenecen a cada una de las clases de datos no se encuen-tra equilibrado. Bajo estas circunstancias, los modelos tradicionales de clasificaci ́onsuelen estar sesgados a predecir las clases con un mayor n ́umero de ejemplos, olvi-dando habitualmente las clases minoritarias. Precisamente, en ciertos dominios elinter ́es radica verdaderamente en las clases minoritarias, y el verdadero problema esclasificar correctamente estos ejemplos minoritarios. En esta Tesis Doctoral hemosrealizado una propuesta de un modelo evolutivo de clasificaci ́on basado en grav-itaci ́on. La idea de este algoritmo se basa en el concepto f ́ısico de gravedad y lainteracci ́on entre las part ́ıculas. El objetivo era desarrollar un modelo de predicci ́onque lograse buenos resultados tanto en conjuntos de datos balanceados como nobalanceados. La adaptaci ́on de la funci ́on de ajuste teniendo en cuenta las carac-ter ́ısticas del dominio y propiedades del conjunto de datos ha ayudado a lograr subuen funcionamiento en ambos tipos de datos. Los resultados obtenidos han de-mostrado alcanzar una gran exactitud, y a su vez una suave y buena generalizaci ́onde la predicci ́on a lo largo del dominio del conjunto de datos.
Todos los modelos propuestos en esta Tesis Doctoral han BibTeX entry too long. Truncated
Genetic Programming entries for Alberto Cano Rojas