Show simple item record

dc.contributor.advisorAbreu Salas, José Ignacio
dc.contributor.authorLai Venegas, Wei Chong
dc.date.accessioned2018-10-08T16:03:29Z
dc.date.available2018-10-08T16:03:29Z
dc.date.issued2017-09
dc.identifier.urihttp://repositoriodigital.ucsc.cl/handle/25022009/1384
dc.descriptionInforme de proyecto de título para optar al grado académico de Ingeniero Civil Informáticoes_CL
dc.description.abstractLos repositorios de datos abiertos son grandes bancos de información que se encuentran disponibles a todo el mundo, albergando datos de todos los temas y formatos. Uno solo puede llegar a tener miles de datasets, con los cuales se pueden satisfacer requerimientos de información, estos pueden tardar meses en ser analizados desde que son enviados por el solicitante hasta que son respondidos tanto de manera afirmativa (creando un dataset, o señalando que los datos ya se encuentran) o negativamente. Es por esto que con el presente proyecto se busca proponer un modelo el cual acelere el proceso del análisis de requerimientos de información, formulando un listado de los posibles datasets del repositorio que sean mas afines al tema en cuestión. Para esto se presentaron 5 modelos en los cuales se utilizaron diferentes técnicas del procesamiento del lenguaje natural (tokenize, etiquetado, obtener sinónimos entre otras). Ademas en cada listado se hace la pregunta: ¿Es el primer dataset encontrado el correcto?, o ¿En los 5 primeros? y así sucesivamente. Como idea principal de este proyecto es encontrar en la primera posición del listado lo cual no ocurre en los primeros modelos presentados, pero esto si ocurre en los modelos posteriores. Si bien los resultados de las métricas que se presentan para cada modelo son aceptables (0%-50% de precisión dependiendo del modelo), estas no son representativas ya que se solo se puede utilizar aproximadamente un 1% de los requerimientos de información presentados en el repositorio de datos abiertos.es_CL
dc.language.isoeses_CL
dc.publisherUniversidad Católica de la Santísima Concepciónes_CL
dc.subjectRepositorios de datos abiertoses_CL
dc.subjectDatasetses_CL
dc.subjectNLTKes_CL
dc.subjectPLNes_CL
dc.subjectOpen dataes_CL
dc.titleRecuperación en un repositorio de datos abiertos de datasets relevantes a un requerimiento de información expresado en lenguaje naturales_CL
dc.typeThesises_CL


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record