Nota: este documento contiene actualmente 0 avisos y 0 errores (según el validador) siguiendo la sintaxis de HTML5.
Se pretende introducir al alumno en el manejo de la biblioteca Lucene (descargar completo, o solo la biblioteca), totalmente hecha en Java para la indexación y búsqueda de documentos.
Como documentación de consulta, el alumno tiene disponible el Tutorial de Lucene así como el API online y la documentación de Lucene 2.9.4.
Otra documentación y artículos sobre Lucene que pueden ser de ayuda están disponibles en:
Primera parte de la práctica:
Con el fin de familiarizarse con la biblioteca Lucene, en esta primera parte, se le proporciona al alumno un ejemplo resuelto de indexación y búsqueda de documentos. El alumno tendrá que crear un nuevo proyecto 'Java' en el entorno Eclipse e introducir las siguientes clases Java:
Utilizando ambas clases, crear un índice y realizar búsquedas para comprender el funcionamiento de ambas clases.
Segunda parte de la práctica:
Se desea crear una página web a través de la cual, los usuarios puedan realizar búsquedas de documentos en un directorio del servidor (/var/www/manual/. Este directorio YA es accesible desde el exterior mediante el URI /manual/ en APACHE, no en TOMCAT). Para facilitar el acceso desde la web (protocolo HTTP) a los documentos, los enlaces devueltos deben apuntar al directorio /manual/ de memex.dsic.upv.es; es decir http://memex.dsic.upv.es/manual/ será el prefijo de los resultados.
Para ello, se proporciona un formulario para recoger las consultas de los usuarios. A partir de este formulario, el alumno deberá crear un servlet que recoja las consultas del formulario y devuelva los resultados encontrados en forma de lista de hipervínculos a los documentos encontrados.
Los pasos a seguir son los siguientes:
Como regla general se debería comprobar que los resultados son correctos: en el caso de búsqueda por nombre, el texto introducido debe ser una subcadena de los resultados mostrados.
Como regla general se debería comprobar que los resultados son correctos: en la búsqueda por contenido, para cada página obtenida como resultado hay que verificar mediante el navegador si contiene la palabra buscada.
En este caso (head por nombre y contenido) pueden aparecer cerca de 170 resultados como síntoma de que no se han indexado los documentos considerando que son HTML. Tendrás que modificar tu indexador para que evite las palabras especiales de HTML.
Como referencia de ayuda para construir un indexador y un buscador de documentos de hipertexto, pueden usarse los ejemplos (lucene-demos.jar) incluidos en Lucene