logo  polski español français english
Skróty Statystyki Bibliografia Linki Nota prawna Redakcja/Kontakt

słowo lub początek (bez * ? % etc.) pokazuj wyniki w: pokazuj:
wyników na stronę
Drodzy Użytkownicy,

Oddajemy do Waszej dyspozycji pierwszy internetowy, wielojęzyczny korpus równoległy, uwzględniający jednocześnie języki polski i baskijski. Jest to póki co wersja próbna narzędzia, tym niemniej po testach wstępnych pomyślnie przeprowadzonych na materiale próbkowym, zdecydowaliśmy się umieścić ją on-line. Tymczasowo zaimplementowany został uproszczony mechanizm wyszukiwania wyrazów (p. niżej), lecz nawet on pozwala uzyskać interesujące wyniki.

Trochę teorii

Korpus to w miarę możliwości duży, usystematyzowany „zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Nowszym zastosowaniem korpusów jest uczenie maszynowe w przetwarzaniu języków naturalnych” [1]. Ponadto „dane korpusowe są [...] przydatne do opracowywania słowników, tezaurusów i glosariuszy oraz w nauczaniu słownictwa języka obcego, [...] narzędzia pozyskiwania leksyki z korpusów [...] pozwalają na użycie tych materiałów w procesie przekładu - zarówno przekładu dokonywanego przez tłumacza (Computer-Aided Translation / CAT) [...], jak i przekładu maszynowego (Machine Translation / MT) [...]” [2].

Ze względu na liczbę uwzględnionych języków korpusy dzielimy na:

  • jednojęzyczne (przykładem może być Brytyjski Korpus Narodowy BNC, oraz korpusy opracowane przez PAN czy PWN)
  • wielojęzyczne, te z kolei na:
    • dwujęzyczne, np. Hansard,
    • kilkujęzyczne, np. EuroParl.

Z oczywistych względów przyjrzymy się teraz nieco bliżej korpusom wielojęzycznym. W tej kategorii, ze względu na rodzaj i sposób usystematyzowania tekstów, wyróżniamy dwa zasadnicze typy:

  • korpusy porównywalne - to zbiory „tekstów stworzonych przez rodzimych użytkowników w dwóch lub więcej językach, które zostały dobrane według takich samych, precyzyjnie zdefiniowanych kryteriów” [2],
  • korpusy równoległe - to zbiory „tekstów oraz odpowiadających im przekładów na jeden lub więcej języków obcych” [2].

Niniejszy korpus zaklasyfikujemy według powyższej typologii jako wielojęzyczny i równoległy. Zostały w nim uwzględnione różne rodzaje tekstów z rozmaitych dziedzin i o różnej objętości, przy czym język wyjściowy także się zmienia. Niestety ze względu na trudności z dostępnością tłumaczeń lub też ich brak nie wszystkie teksty mają odpowiedniki we wszystkich językach. W miarę możliwości jednak braki te będą przez nas uzupełniane. Pełen wykaz uwzględnionych tekstów uzupełniony o dodatkowe dane dostępny jest w dziale Skróty.

Do czego to potrzebne?

Jak już wspomniano wyżej, tego typu korpusy nadają się do wykorzystania w sytuacjach, w których potrzeba dostępu do dużej ilości danych językowych dla potwierdzenia występowania jakiegoś konkretnego zjawiska. Z tego powodu narzędziami takimi posługują się obecnie przede wszystkim leksykografowie przy opracowywaniu słowników. Oczywiście wykorzystywane do takich celów korpusy są o wiele większe i dużo bardziej skomplikowane. Uwzględnione w nich teksty dobierane są według ściśle określonych zasad i proporcji, częstokroć wyrazy są w specjalny sposób oznaczone (otagowane), co ułatwia przypisanie ich do właściwej klasy gramatycznej i pozwala z kolei uniknąć niejasności spowodowanych homonimią. Są to naprawdę potężne narzędzia, nad którymi przez wiele lat pracują niemałe grupy specjalistów otrzymujących na te cele fundusze z uniwersytetów i innych placówek badawczych.

Czy takie korpusy mogą mieć wady? Oczywiście. Naszym zdaniem zasadniczą ich wadą jest to, że zwykle dostęp do nich jest ograniczony opłatami.

Nie zakładamy, że redagowany przez nas korpus sprosta tak ambitnym zadaniom, jak przedsięwzięcia profesjonalne. Nie mamy bowiem ani możliwości, jakimi dysponują specjaliści, ani tyle czasu. Poza tym ogranicza nas też bardzo specyficzny charakter uwzględnionych języków - przede wszystkim baskijskiego i polskiego, a co za tym idzie dostępność tekstów i tłumaczeń. Tym niemniej za główne atuty naszego korpusu uważamy bezpłatny nieograniczony dostęp, prostotę obsługi, różnorodność tekstów oraz wielojęzyczność i uwzględnienie języków z kilku grup.

Mamy nadzieję, że narzędzie, nad którym pracujemy przyda się zwyczajnemu, lecz świadomemu użytkownikowi języka, w szczególności zaś osobom uczącym się języków obcych, które opanowały już niezbędne podstawy. Mogą one wykorzystywać korpus jako nietypowy słownik pozbawiony siatki haseł, lecz za to wyposażony w rozbudowane przykłady użycia wyrazu. Przykłady takie mają tę przewagę nad zwykle umieszczanymi w słownikach, że nie zostały wymyślone ad hoc, a zaczerpnięte z prawdziwych tekstów - m.in. dzieł literackich uznanych pisarzy, oraz ich opublikowanych przekładów. Można zatem założyć, że zanim ktoś odpowiedzialny uznał, że przekłady te nadają się do publikacji, musiał najpierw je przeczytać, skonfrontować z oryginałem i ewentualnie poprawić.

Nasze narzędzie pozwoli więc zaobserwować jak zachowują się słowa i ich ekwiwalenty w swoim „naturalnym środowisku”. Należy, rzecz jasna, zachować przy tych obserwacjach pewną dozę krytycyzmu oraz trzeźwości umysłu, jednak zadanie to nie przekracza możliwości średnio zaawansowanego użytkownika języka obcego. Pragniemy przy tym zauważyć, że takie nieufne nastawienie przydatne byłoby również przy korzystaniu z jakiegokolwiek słownika dwujęzycznego.

Ocenę przydatności naszego dzieła pozostawiamy Wam. Zachęcamy do kontaktu i podzielenia się uwagami, opiniami, sugestiami...

Jak to działa?

Na razie w korpusie zaimplementowany jest jeden prosty mechanizm wyszukiwania: w pierwszej kolumnie formularza należy określić język i w polu wpisać początkowe kilka liter szukanego słowa (bez dodatkowych znaków % czy * na końcu). W wyniku otrzymamy wszystkie rekordy zawierające wyrazy zaczynające się od zadanego ciągu. Np. szukanie ciągu kobie przy zaznaczonym języku polskim zwróci segmenty zawierające wyrazy: kobieta, kobiety, kobiecie itd., także kobieciny, kobiecy itp., lecz niestety może być to też kobierzec (sic!) itp. Należy mieć na uwadze, że im więcej początkowych liter zostanie podanych, tym bardziej ograniczone będą wyniki szukania.

Opcja drugi język pozwala zawęzić wyniki wyszukiwania do rekordów zawierających zadane ciągi w dwóch wybranych polach (językach) bazy naraz (operator logiczny AND). Np. można wyszukać tylko segmenty, w których polski tekst zawiera wyraz kobieta, a jego baskijski odpowiednik wyraz emakume. Korzystając z tej opcji można też wyszukać rekordy zawierające dwa różne ciągi w jednym polu (języku), np. wybierając dwa razy język polski i wpisując w jednym polu kobie, a w drugim mężczy, otrzymamy w wyniku wszystkie cytaty zawierające słowa kobieta i mężczyzna.

Opcja pokazuj wyniki w pozwala wyłączyć wyświetlanie cytatów w językach, które aktualnie nas nie interesują, i poprawić w ten sposób czytelność strony z wynikami.

Ostatnia opcja pozwala dostosować ilość naraz wyświetlanych wyników.

Ustawienia opcji wyszukiwania są zapamiętywane i nie trzeba ich dostosowywać przy każdym szukaniu. Giną dopiero po zamknięciu okna przeglądarki. Ustawienia językowe natomiast przechowywane są w pliku cookie, więc zostaną automatycznie przywrócone przy ponownym wejściu na stronę korpusu.

W planach:

  • rozbudowa bazy tekstów do wielkości co najmniej 1 mln wyrazów tekstowych dla każdego z języków,
  • uwzględnienie nowych rodzajów tekstów: dramatów, traktatów filozoficznych, dzieł naukowych oraz fragmentów Pisma Świętego,
  • lemmatyzatory dla języka polskiego (prace nad nim i pierwsze próby już trwają) i baskijskiego, a w następnej kolejności także dla pozostałych języków,
  • dodanie języka niemieckiego,
  • bardziej rozbudowane zapytania.

_________

ŹRÓDŁA:

[1]Wikipedia.
[2]Lewandowska-Tomaszczyk Barbara (red.), Podstawy językoznawstwa korpusowego, Wydawnictwo Uniwersytetu Łódzkiego, Łódź 2005.