-
author = "Andrea Jesus {Cimmino Arriaga}",
-
title = "Enterprise information integration: on discovering
links using genetic programming",
-
school = "Departamento de Lenguajes y Sistemas Informaticos,
Universidad de Sevilla",
-
year = "2019",
-
address = "Sevilla, Spain",
-
month = sep,
-
keywords = "genetic algorithms, genetic programming, Eva4LD, Web
of Data, Sorbas, Teide",
-
URL = "https://idus.us.es/handle/11441/92456",
-
URL = "https://idus.us.es/bitstream/handle/11441/92456/PhD-Report-1.pdf",
-
size = "113 pages",
-
abstract = "Both established and emergent business rely heavily on
data, chiefly those that wish to become game changers.
The current biggest source of data is the Web, where
there is a large amount of sparse data. The Web of Data
aims at providing a unified view of these islands of
data. To realise this vision, it is required that the
resources in different data sources that refer to the
same real-world entities must be linked, which is they
key factor for such a unified view. Link discovery is a
trending task that aims at finding link rules that
specify whether these links must be established or not.
Currently there are many proposals in the literature to
produce these links, especially based on
meta-heuristics. Unfortunately, creating proposals
based on meta-heuristics is not a trivial task, which
has led to a lack of comparison between some
well-established proposals. On the other hand, it has
been proved that these link rules fall short in cases
in which resources that refer to different real-world
entities are very similar or vice versa.
In this dissertation, we introduce several proposals to
address the previous lacks in the literature. On the
one hand we, introduce Eva4LD, which is a generic
framework to build genetic programming proposals for
link discovery; which are a kind of meta-heuristics
proposals. Furthermore, our framework allows to
implement many proposals in the literature and compare
their results fairly. On the other hand, we introduce
Teide, which applies effectively the link rules
increasing significantly their precision without
dropping their recall significantly. Unfortunately,
Teide does not learn link rules, and applying all the
provided link rules is computationally expensive. Due
to this reason we introduce Sorbas, which learns what
we call contextual link rules.",
-
resumen = "Las empresas que desean establecer un precedente en el
panorama actual tienden a recurrir al uso de datos para
mejorar sus modelos de negocio. La mayor fuente de
datos disponible es la Web, donde una gran cantidad es
accesible aunque se encuentre fragmentada en islas de
datos. La Web de los Datos tiene como objetivo dar una
vision unificada de dichas islas, aunque el
almacenamiento de los mismos siga siendo distribuido.
Para ofrecer esta vision es necesario enlazar los
recursos presentes en las islas de datos que hacen
referencia a las mismas entidades del mundo real. Link
discovery es el nombre atribuido a esta tarea, la cual
se basa en generar reglas de enlazado que permiten
establecer bajo que circunstancias dos recursos deben
ser enlazados. Se pueden encontrar diferentes
propuestas en la literatura de link discovery,
especialmente basadas en meta-heuristicas. Por
desgracia comparar propuestas basadas en
meta-heuristicas no es trivial. Por otro lado, se ha
probado que estas reglas de enlazado no funcionan bien
cuando los recursos que hacen referencia a dos
entidades distintas del mundo real son muy parecidos, o
por el contrario, cuando dos recursos muy distintos
hacen referencia a la misma entidad.
En esta tesis presentamos varias propuestas. Por un
lado, Eva4LD es un framework generico para desarrollar
propuestas de link discovery basadas en programacion
genetica, que es un tipo de meta-heuristica. Gracias a
nuestro framework, hemos podido implementar distintas
propuestas de la literatura y comprar justamente sus
resultados. Por otro lado, en la tesis presentamos
Teide, una propuesta que recibiendo varias reglas de
enlazado las aplica de tal modo que mejora
significativamente la precision de las mismas sin
reducir significativamente su cobertura. Por desgracia,
Teide es computacionalmente costoso debido a que no
aprende reglas. Debido a este motivo, presentamos
Sorbas que aprende un tipo de reglas de enlazado que
denominamos reglas de enlazado con contexto.",
-
notes = "In English.
First published in July 2019 by The Distributed Group,
ETSI Informatica, Avda. de la Reina Mercedes, s/n
Sevilla, E-41012. SPAIN
Supervisor: Rafael Corchuelo Gil",