Wyszukiwanie zaawansowane

Terminy proste i frazy

W wyszukiwaniu można używać terminów prostych, czyli pojedynczy wyrazów oraz fraz, czyli wyrażeń złożonych z kilku słów ujętych w cudzysłów np. „więzienie na Pawiaku”. W przypadku użycia cudzysłowu wyszukiwane będą tylko te dokumenty, które zawierają całą frazę.

Terminy wyszukiwawcze można łączyć za pomocą operatorów logicznych. Można też używać tzw. znaków maskujących, które zastępują dowolne litery i cyfry oraz ich ciągi, wyszukiwać terminy podobne, znajdujące się w pewnej odległości od siebie lub określać priorytet wyszukiwanych terminów.

Operatory logiczne

  • AND – zapisywany również jako && – oznacza, że terminy połączone operatorem muszą jednocześnie występować w przeszukiwanym dokumencie. Np. zapytanie w postaci Starzyński && Lorentz spowoduje wybranie tylko takich dokumentów, w których oba nazwiska występują jednocześnie. Użycie operatora AND jest domyślym zachowaniem wyszukiwarki w przypadku wpisania więcej niż jednego słowa, zatem taki sam wynik uzyskamy wpisując Starzyński Lorentz.
  • OR – oznaczany również || – wymaga, aby przynajmniej jeden z terminów występował w przeszukiwanym dokumencie np. zapytanie Starzyński || Lorentz spowoduje wybranie dokumentów, w których występuje nazwisko Starzyński lub Lorentz lub oba.
  • NOT – alternatywny zapis ! – wyklucza z listy wyników dokumenty, w których występuje zanegowany termin. Np. zapytanie „Adolf Hitler Platz” NOT Platz wyszuka dokumenty, zawierające frazę „Adolf Hitler„, ale nie zawierające jednocześnie słowa Platz. Operator ten nie może być stosowany samodzielnie, np. zapytanie w postaci NOT „Adolf Hitler” nie zwróci poprawnych wyników.
  • + (operator terminu wymaganego) – wyszukuje dokumenty zawierające termin następujący bezpośrednio po „+”, lecz niekoniecznie pozostałe terminy, np. +getto warszawskie spowoduje wybranie dokumentów, które muszą zawierać słowo getto i mogą (ale nie muszą) zawierać słowo: warszawskie.
  •  (operator terminu zakazanego) – działa podobnie jak operator NOT. Zapytanie „Adolf Hitler” -„Adolf Hitler Platz” wyszuka dokumenty zawierające nazwisko „Adolf Hitler”, lecz nie zawierające nazwy „Adolf Hitler Platz”.

Znaki maskujące

  • ? – zastępuje jeden dowolny znak. Np. zapytanie Adamsk? pasuje zarówno do Adamski, jak i Adamska.
  • * – zastępuje ciąg znaków np. zapis: bu*a spowoduje wyszukanie takich słów jak buda, budowa, bunkra, butonierka itp. Znaku maskującego nie wolno umieszczać na początku wyrażenia wyszukiwawczego.

Wyszukiwanie rozmyte

Wyszukiwanie rozmyte (fuzzy search) znajduje zastosowanie w wypadku terminów prostych podobnych do siebie np. Holocaust, Holokaust. Dokumenty zawierające te terminy można wyszukać dodając znak tyldy do terminu: holocaust~.

Stopień poszukiwanego podobieństwa można określić współczynnikiem, który zmienia się w zakresie od 0 (brak podobieństwa) do 1 (terminy identyczne). Domyślnie współczynnik podobieństwa ustawiony jest na wartość 0.5. Aby ją zmienić, do wyszukiwanego terminu należy dodać znak tyldy wraz z wyraźnie określonym współczynnikiem, np. holocaust~0.4.

Wyszukiwanie wg sąsiedztwa

Możliwe jest również określenie w jakiej odległości ma się znajdować jednen z wyszukiwanych terminów od innego (tzw. proximity search). Jeśli np. pamiętamy, że dokumencie w niewielkiej odległości od siebie pojawiały się wyrażenia Gestapo oraz tortury, możemy użyć następującego zapytania: „Gestapo tortury”~6.

Określanie ważności terminu

Można określić priorytet wyszukiwanego terminu przez dodanie znaku ^ wraz z liczbą (większą niż 1). Np. zapytanie Lange^4 Sajnóg zwróci dokumenty, w których występują oba nazwiska, ale na początku listy znajdą się te, w których częściej pojawia się nazwisko oznaczone wyższym priorytetem (Lange). Domyślny priorytet wyszukiwania wynosi 1.

Łączenie zapytań

Wyrażenia w zapytaniach złożonych można grupować za pomocą nawiasów. Zabieg taki pozwala nadać rozbudowanym zapytaniom zamierzony, jednoznaczny sens, podobnie jak to się dzieje w działaniach arytmetycznych.

Najpierw przetwarzane są wyrażenia cząstkowe wewnątrz nawiasów, a następnie większe całości. Zapytanie o kształcie: „obóz zagłady w Treblince” AND (Holokaust OR Holocaust) spowoduje wyszukanie dokumentów, w ktorych występuje wyrażenie „obóz zagłady w Treblince” oraz jedno z dwóch słów (lub oba): HolokaustHolocaust.

Znaki specjalne

Ze zrozumiałych względów znaki służące do budowania zapytań złożonych (+ – && || ! ( ) { } [ ] ^ ” ~ * ? : ) są traktowane podczas wyszukiwania inaczej niż pozostałe: pełnią rolę elementów składni zapytania, a nie cząstek wyszukiwanego wyrażenia. Aby objąć je procesem wyszukiwania należy umieścić przed nimi tzw. znak ucieczki . Np. w celu wyszukania frazy „(2 + 2)*2” należy wpisać „( 2 + 2 ) * 2

Źródło opisu

Pełny opis sposobu formułowania zapytań (strona w języku angielskim): Apache Lucene Query Parser Syntax.

Tekst oryginalnie zamieszczony na stronach Kujawsko-Pomorskiej Biblioteki Cyfrowej.

Ten utwór jest dostępny na licencji Creative Commons Uznanie autorstwa-Na tych samych warunkach 2.5 Polska.

Kontakt

Adres

Archiwum Instytutu Solidarności i Męstwa im. Witolda Pileckiego ul. Foksal 17 00-372 Warszawa

Godziny otwarcia

Pon. - Pt. 9:00 - 15:00

Telefon

(+48) 22 182 24 75

Ta strona wykorzystuje pliki 'cookies'. Więcej informacji