20/03/2018

Recomendaciones para la búsqueda por texto libre en bases de jurisprudencia

1. ¿Para qué puedes necesitar la búsqueda por texto libre?.- 2. "Cada buscador es cada buscador" 3. Aspectos que debes conocer del buscador de tu base de datos.- 3.1. Sensibilidad a los acentos, las mayúsculas, el género y el número de las palabras en las búsquedas no literales.- 3.2 . Sensibilidad a los acentos, las mayúsculas, el género y el número de las palabras en las búsquedas literales (entre comillas).- 3.3. Truncamiento de palabras.- 3.4. Los 2 + 2 operadores lógicos básicos.- 3.5. Operador por defecto.- 3.6. Relación entre los operadores.- 4. Recomendación final

1. ¿Para qué puedes necesitar la búsqueda por texto libre?


Aunque la mayor parte de las bases de datos de jurisprudencia permiten la búsqueda por voces o tesauro y por norma aplicada, puedes necesitar el empleo de la búsqueda por texto libre por distintas razones:
  • No encuentras una voz que se ajuste a lo que buscas ni una norma que necesariamente haya de ser empleada por las sentencias que te interesan.
  • Cuentas con una voz o norma que incluye tu asunto, pero lo hace con demasiada holgura: los resultados son demasiado extensos y necesitas acotar la búsqueda.
  • Quieres realizar una "búsqueda de excelencia" y no confías plenamente en las etiquetas que sirven para vincular cada sentencia a la correspondiente voz o norma, primero, porque no todas las sentencias de la jurisprudencia menor las suelen llevan y, segundo, porque están sujetas al margen de error propio del procedimiento humano o automatizado por el que se crean. Vamos, que se te pueden escapar sentencias realmente interesantes.


2. "Cada buscador es cada buscador"


Ten en consideración que existen diferencias en el funcionamiento de los sistemas de búsqueda por texto libre de cada base de datos. Sobre una estructura muy pareja, las herramientas de búsqueda de las  bases de datos presentan algunas divergencias, que, en caso de ser desatendidas, te pueden jugar una mala pasada. Así que la principal recomendación, madre de las que despliego después, es que compruebes en tu base de datos cómo funcionan ciertos aspectos del sistema de búsqueda por texto libre. Compruébalo, en primer término, en la información de ayuda que pone a tu disposición la base de datos. Caso de no encontrar la respuesta que buscas, lo tendrás que averiguar por el método de "prueba y error", es decir, realizando un par de pruebas con distintas formas de búsqueda para comprobar cómo afectan a los resultados.

En el siguiente apartado señalo las principales variables de los buscadores por texto libre de las bases de datos de jurisprudencia, de las que puede depender el éxito y refinamiento de tu búsqueda. A modo de ejemplo, apunto, respecto de cada una de ellas, cómo funcionan en el buscador de texto libre de la base de datos del CENDOJ.



3.Aspectos que debes conocer del buscador de tu base de datos



3.1. Sensibilidad a los acentos, las mayúsculas, el género y el número de las palabras en las búsquedas no literales


¿Afecta el empleo o no de acentos, mayúsculas o minúsculas, género masculino o femenino y número singular o plural? Si lo hace, se dice que el buscador es sensible a esa variación.
CENDOJ solamente es sensible al género. Si escribes niña no te saldrán las sentencias que sólo emplean la palabra niño y viceversa.   
En cambio, CENDOJ no es sensible a las mayúsculas, acentos y número: Si escribes robo, te encontrará las resoluciones que incluyan las palabras Robo, ROBO, robo, robos o robó.
Si quieres realizar una búsqueda que incluya alguna de las variables a las que no es sensible el buscador (por ejemplo, quieres buscar específicamente robos y no quieres que se incluyan robo o robó), tienes que pasar al punto 3.2 relativo a la sensibilidad del buscador en búsquedas literales. 

Si, en cambio, quieres realizar una búsqueda que incluya todas las alternativas de una variable a la que es sensible el buscador (por ejemplo, en CENDOJ, quieres buscar las resoluciones que incluyan indiferentemente una de las dos palabras: niña o niño), en ese caso tienes que comprobar si se pueden truncar las palabras o realizar una búsqueda con operadores (apartados 3.3. y 3.6).



3.2 . Sensibilidad a los acentos, las mayúsculas, el género y el número de las palabras en las búsquedas literales (entre comillas)


Normalmente, la búsqueda literal (entre comillas) tanto de palabras como de frases es sensible a todas las variables, con pocas o ninguna excepción. 
En búsquedas literales, CENDOJ es sensible al género ("niña" solo recuperará resoluciones con la voz "niña" y no las que emplean la voz "niño"), número (buscando con "niño" no saldrán sentencias en que aparezca la voz "niños") y acento (en la búsqueda "robo", no aparecerán las resoluciones con "robó"); en cambio, no es sensible a las mayúsculas (si buscamos "IBAN", para encontrar jurisprudencia sobre el IBAN o número de identificación bancario, encontraremos entremezcladas resoluciones que emplean específicamente el IBAN con otras con la palabra "iban", del verbo "ir").


3.3. Truncamiento de palabras


El símbolo más habitual para el truncamiento de palabras es un * colocado al final de la raíz de la palabra que vas a emplear. Es muy útil para buscar todas las posibles derivadas del término que te interesa. Por ejemplo, niñ* recuperará, como mínimo, las resoluciones que empleen "niño", "niña", "niños", "niñas" o "niñez"; causal* dará resoluciones con "causal", "causalidad" o "causalismo", Solidari*: "solidaria", "solidario", "solidarios", "solidarias", "solidaridad" o "solidariamente". Resci*: "rescisión", "rescindir", "rescindido" o "rescisoria".
La base del CENDOJ  no admite truncamiento de palabras. Tendrás que emplear, a estos efectos, el operador lógico O (OR), que explico en el siguiente apartado: rescisión O rescindir O rescindido O rescisoria 


3.4. Los 2 + 2 operadores lógicos básicos


Los operadores lógicos establecen la relación que debe existir entre las palabras que conectan a la hora de realizar la búsqueda.

Hay dos operadores de uso corriente, que son Y (AND) y O (OR), y otros dos de uso menos frecuente pero que no están exentos de utilidad: NO (NOT) y proximidad. Para emplearlos, debes averiguar cómo se escriben en el buscador de tu base de datos.

Con el empleo del operador Y (AND), la búsqueda solo dará aquellas resoluciones que empleen las dos o más palabras conectadas.
Si buscas en CENDOJ resoluciones que contengan tanto la palabra "costas" como la palabra "reconvención", escribe: costas Y reconvención
Con el operador O (OR) obtienes las resoluciones que contengan, al menos, una de de las palabras conectadas.
Si piensas que las resoluciones que nos interesan pueden emplear las expresiones "culpa", "negligencia" o "imprudencia", escribe en el buscador del CENDOJ: culpa O negligencia O imprudencia 
El operador NO (NOT) sirve para seleccionar las sentencias que no contengan la palabra que sigue; interpuesto entre dos palabras, actúa como un Y NO: solo produce las resoluciones que incluyan la primera palabra si, además, no incluyen la segunda.
Si te interesan sentencias sobre responsabilidad objetiva que no sean precisamente de tráfico, puedes evitar la mayoría de estas en los resultados de la búsqueda si escribes: "responsabilidad objetiva" NO tráfico 
Termino con el operador de proximidad. Si te interesa realizar una búsqueda sobre las costas de la reconvención y escribes costas Y reconvención, te aparecerán todas las resoluciones en que se empleen la palabra "reconvención" (por ejemplo, en los antecedentes de hecho) y la palabra "costas" (por ejemplo, en el fallo), aunque no traten en absoluto del tema que te preocupa. Si, para lograr mayor precisión, escribes "costas de la reconvención", no te aparecerá una sentencia que diga "... en cuanto a la reconvención, las costas...". Para extender la búsqueda a estos resultados, casi todas las bases de datos disponen de órdenes que juegan con la proximidad de las palabras.
En el buscador del CENDOJ, puedes probar a escribir costas PROX10 reconvención. Te aparecerán las resoluciones en las que los dos términos se encuentren separados por 9 o menos palabras (es decir, a contar desde una de las palabras, la otra es, como máximo, la décima). Para obtener las sentencias que incluyan "menor edad", "menor de edad" y "menores de edad" debes escribir menor PROX 2 edad.

3.5. Operador por defecto


Si escribes culpa de la víctima (sin comillas) en un buscador, ocurrirán dos cosas. En primer lugar, el buscador ignorará ciertas palabras no sustantivas, como "de" y "la", en el ejemplo anterior, y se quedará solamente con la restantes: en el ejemplo, "culpa" y "víctima". En segundo lugar, aplicará a las dos palabras uno de los dos operadores básicos: Y (AND) u O (OR), que actuará, por tanto, como operador implícito. Conviene que conozcas cuál es el operador implícito de tu base de datos.
El buscador del CENDOJ ignora artículos, preposiciones y muchos adverbios (no, por ejemplo, los compuestos con el sufijo "mente" o los que tienen una acepción material, como "menor"). 
El operador por defecto es Y

3.6. Relación entre los operadores 


De lo que trato aquí es de que sepas cómo manejar la relación entre los operadores básicos para realizar búsquedas complejas. Si buscas jurisprudencia sobre la culpa de la víctima que es menor de edad, es posible que concluyas que lo mejor es buscar las resoluciones que contengan la expresión "culpa de la víctima" y, además, una de las siguientes palabras: "niño" o "niña" (en una base de datos sensible al género que no admite truncamientos). Según cómo redactemos la búsqueda, el sistema puede entender que lo que buscamos son resoluciones en que aparezca la palabra "niño" o, alternativamente, se encuentren tanto la palabra "niña" como la expresión "culpa de la víctima". Se producirían, en ese caso, unos resultados indeseados, ya que aparecerían todas las resoluciones que emplean la palabra "niño", aunque no empleen también "culpa de la víctima".

Para evitar estas disfunciones, conviene conocer las preferencias que adopta por defecto nuestro buscador (por ejemplo, aplica los operadores secuencialmente de izquierda a derecho, da prioridad a determinado operador, etc.) y, sobre todo, saber cómo modificar dichas preferencias para adaptar la búsqueda a nuestras necesidades, generalmente mediante el empleo de paréntesis y, en su caso, corchetes.
El sistema del CENDOJ  sigue el siguiente orden de preferencias: PROX, Y, NO, O. Por tanto, en la búsqueda niño O niña Y "culpa de la víctima", buscará primero las resoluciones que empleen tanto "culpa de la víctima" como niña y añadirá después las que empleen la palabra niño. Para evitar lo anómalo de este resultado, podemos emplear paréntesis: (niño O niña) Y "culpa de la víctima" dará el resultado apetecido. Puedes. incluso, incluir paréntesis dentro de paréntesis, como verás en un ejemplo posterior.
En los siguientes ejemplos voy añadiendo progresivamente elementos de complejidad en la búsqueda que hemos comenzado con (niño O niña) Y "culpa de la víctima".
Piensas que las sentencias que te interesan pueden emplear la expresión "menor de edad" (o "menores de edad" o "menor edad") en lugar de "niño" o "niña": (niño O niña O menor PROX2 edad) Y "culpa de la víctima". Si no recuerdas qué relación establece el buscador del CENDOJ entre los operadores PROX y O, puedes siempre emplear paréntesis para marcar tus prioridades:  (niño O niña (O menor PROX2 edad)) Y "culpa de la víctima"
También piensas que las sentencias pueden emplear la expresión "culpa del perjudicado" en lugar de "culpa de la víctima": (niño O niña O menor PROX2 edad) Y ("culpa de la víctima" O "culpa del perjudicado")
Quieres centrarte exclusivamente en accidentes de tráfico: (niño O niña O menor PROX2 edad) Y ("culpa de la víctima" O "culpa del perjudicado") Y (tráfico O circulación O vehículo) 


4. Recomendación final


Prueba y prueba y prueba...



No hay comentarios:

Publicar un comentario