Web Semántica

Conoce la Web Semantica, sus metadatos y herramientas

Herramienta FOCA de recuperación metadatos

Tutorial Herramienta FOCA

En esta entrada se muestra de forma práctica cómo extraer los metadatos desde un sitio web utilizando la herramienta FOCA, presentada en la anterior entrada.

Para ello, lo primero que hay que hacer es descargar la herramienta desde el sitio web oficial, web http://www.informatica64.com/foca/.  pulsando en “Descarga la FOCA”, y aceptando los términos del acuerdo de la licencia de usuario (EULA) y su política de privacidad.

Una vez descargada la herramienta se abre y se crea  un nuevo proyecto en la pestaña Project-New Proyect. Se le asigna un nombre al proyecto, en este caso “Proyecto Prueba”, y se introduce el dominio de la web de la que se desean obtener los metadados. Para este tutorial se ha elegido la web de la wikipedia, por lo que se introduce el dominio www.wikipedia.org. Se pulsa el botón “Create” para crear el proyecto.

En el menú desplegable a la izquierda de la herramienta se selecciona la opción “Metadatos”,  y se mostrarán dos nuevas opciones. Se podrá definir con qué buscadores se desean analizar los archivos del dominio introducido al crear el proyecto en el paso anterior. En este caso, se han decidido usar los buscadores Google y Bing. Además, la herramienta FOCA permite especificar la extensión de los archivos que se desea buscar de entre todas las opciones que FOCA ofrece. Se marcan todas las opciones para extraer todos los archivos posibles.

Una vez configurada la búsqueda, se pulsa el botón “Search All”, momento en el que comienza la búsqueda de archivos. Una vez obtenidos los archivos, se debe hacer click derecho sobre cualquiera de ellos, y al seleccionar “Download All” comenzará su descarga.

Si una vez descargados dichos archivos se vuelve a pulsar el clic derecho en cualquier de ellos se podrá seleccionar Extract All Metadata. La herramienta FOCA iniciará el análisis, y en el menú de la izquierda del programa aparecen dos nuevos apartados: Documents y Metadata Summary. Los documentos obtenidos se irán almacenando en el apartado de Documents, mientras que los metadatos obtenidos irán apareciendo en el Metadata Summary.

La herramienta FOCA permite la posibilidad de exportar los datos obtenidos. También permite analizar los metadatos encontrados en el dominio indicado, creando un mapa de red completamente estructurado que aparecerá en el apartado Network. Este mapa permite conocer de forma precisa los usuarios y servidores que lo componen.

En próximas entradas del blog se analizarán diferentes herramientas que también permitan la recuperación de metadatos.


Publicado

en