|
![]() | |||||||
|
Oddajemy do Waszej dyspozycji pierwszy internetowy, wielojęzyczny korpus równoległy, uwzględniający jednocześnie języki polski i baskijski. Jest to póki co wersja próbna narzędzia, tym niemniej po testach wstępnych pomyślnie przeprowadzonych na materiale próbkowym, zdecydowaliśmy się umieścić ją on-line. Tymczasowo zaimplementowany został uproszczony mechanizm wyszukiwania wyrazów (p. niżej), lecz nawet on pozwala uzyskać interesujące wyniki.
Korpus to w miarę możliwości duży, usystematyzowany „zbiór tekstów służący badaniom lingwistycznym, np. określaniu częstości występowania form wyrazowych, konstrukcji składniowych, kontekstów w jakich pojawiają się dane wyrazy. Nowszym zastosowaniem korpusów jest uczenie maszynowe w przetwarzaniu języków naturalnych” [1]. Ponadto „dane korpusowe są [...] przydatne do opracowywania słowników, tezaurusów i glosariuszy oraz w nauczaniu słownictwa języka obcego, [...] narzędzia pozyskiwania leksyki z korpusów [...] pozwalają na użycie tych materiałów w procesie przekładu - zarówno przekładu dokonywanego przez tłumacza (Computer-Aided Translation / CAT) [...], jak i przekładu maszynowego (Machine Translation / MT) [...]” [2]. Ze względu na liczbę uwzględnionych języków korpusy dzielimy na:
Z oczywistych względów przyjrzymy się teraz nieco bliżej korpusom wielojęzycznym. W tej kategorii, ze względu na rodzaj i sposób usystematyzowania tekstów, wyróżniamy dwa zasadnicze typy:
Niniejszy korpus zaklasyfikujemy według powyższej typologii jako wielojęzyczny i równoległy. Zostały w nim uwzględnione różne rodzaje tekstów z rozmaitych dziedzin i o różnej objętości, przy czym język wyjściowy także się zmienia. Niestety ze względu na trudności z dostępnością tłumaczeń lub też ich brak nie wszystkie teksty mają odpowiedniki we wszystkich językach. W miarę możliwości jednak braki te będą przez nas uzupełniane. Pełen wykaz uwzględnionych tekstów uzupełniony o dodatkowe dane dostępny jest w dziale Skróty.
Jak już wspomniano wyżej, tego typu korpusy nadają się do wykorzystania w sytuacjach, w których potrzeba dostępu do dużej ilości danych językowych dla potwierdzenia występowania jakiegoś konkretnego zjawiska. Z tego powodu narzędziami takimi posługują się obecnie przede wszystkim leksykografowie przy opracowywaniu słowników. Oczywiście wykorzystywane do takich celów korpusy są o wiele większe i dużo bardziej skomplikowane. Uwzględnione w nich teksty dobierane są według ściśle określonych zasad i proporcji, częstokroć wyrazy są w specjalny sposób oznaczone (otagowane), co ułatwia przypisanie ich do właściwej klasy gramatycznej i pozwala z kolei uniknąć niejasności spowodowanych homonimią. Są to naprawdę potężne narzędzia, nad którymi przez wiele lat pracują niemałe grupy specjalistów otrzymujących na te cele fundusze z uniwersytetów i innych placówek badawczych. Czy takie korpusy mogą mieć wady? Oczywiście. Naszym zdaniem zasadniczą ich wadą jest to, że zwykle dostęp do nich jest ograniczony opłatami. Nie zakładamy, że redagowany przez nas korpus sprosta tak ambitnym zadaniom, jak przedsięwzięcia profesjonalne. Nie mamy bowiem ani możliwości, jakimi dysponują specjaliści, ani tyle czasu. Poza tym ogranicza nas też bardzo specyficzny charakter uwzględnionych języków - przede wszystkim baskijskiego i polskiego, a co za tym idzie dostępność tekstów i tłumaczeń. Tym niemniej za główne atuty naszego korpusu uważamy bezpłatny nieograniczony dostęp, prostotę obsługi, różnorodność tekstów oraz wielojęzyczność i uwzględnienie języków z kilku grup. Mamy nadzieję, że narzędzie, nad którym pracujemy przyda się zwyczajnemu, lecz świadomemu użytkownikowi języka, w szczególności zaś osobom uczącym się języków obcych, które opanowały już niezbędne podstawy. Mogą one wykorzystywać korpus jako nietypowy słownik pozbawiony siatki haseł, lecz za to wyposażony w rozbudowane przykłady użycia wyrazu. Przykłady takie mają tę przewagę nad zwykle umieszczanymi w słownikach, że nie zostały wymyślone ad hoc, a zaczerpnięte z prawdziwych tekstów - m.in. dzieł literackich uznanych pisarzy, oraz ich opublikowanych przekładów. Można zatem założyć, że zanim ktoś odpowiedzialny uznał, że przekłady te nadają się do publikacji, musiał najpierw je przeczytać, skonfrontować z oryginałem i ewentualnie poprawić. Nasze narzędzie pozwoli więc zaobserwować jak zachowują się słowa i ich ekwiwalenty w swoim „naturalnym środowisku”. Należy, rzecz jasna, zachować przy tych obserwacjach pewną dozę krytycyzmu oraz trzeźwości umysłu, jednak zadanie to nie przekracza możliwości średnio zaawansowanego użytkownika języka obcego. Pragniemy przy tym zauważyć, że takie nieufne nastawienie przydatne byłoby również przy korzystaniu z jakiegokolwiek słownika dwujęzycznego. Ocenę przydatności naszego dzieła pozostawiamy Wam. Zachęcamy do kontaktu i podzielenia się uwagami, opiniami, sugestiami...
Na razie w korpusie zaimplementowany jest jeden prosty mechanizm wyszukiwania: w pierwszej kolumnie formularza należy określić język i w polu wpisać początkowe kilka liter szukanego słowa (bez dodatkowych znaków % czy * na końcu). W wyniku otrzymamy wszystkie rekordy zawierające wyrazy zaczynające się od zadanego ciągu. Np. szukanie ciągu kobie przy zaznaczonym języku polskim zwróci segmenty zawierające wyrazy: kobieta, kobiety, kobiecie itd., także kobieciny, kobiecy itp., lecz niestety może być to też kobierzec (sic!) itp. Należy mieć na uwadze, że im więcej początkowych liter zostanie podanych, tym bardziej ograniczone będą wyniki szukania. Opcja drugi język pozwala zawęzić wyniki wyszukiwania do rekordów zawierających zadane ciągi w dwóch wybranych polach (językach) bazy naraz (operator logiczny AND). Np. można wyszukać tylko segmenty, w których polski tekst zawiera wyraz kobieta, a jego baskijski odpowiednik wyraz emakume. Korzystając z tej opcji można też wyszukać rekordy zawierające dwa różne ciągi w jednym polu (języku), np. wybierając dwa razy język polski i wpisując w jednym polu kobie, a w drugim mężczy, otrzymamy w wyniku wszystkie cytaty zawierające słowa kobieta i mężczyzna. Opcja pokazuj wyniki w pozwala wyłączyć wyświetlanie cytatów w językach, które aktualnie nas nie interesują, i poprawić w ten sposób czytelność strony z wynikami. Ostatnia opcja pozwala dostosować ilość naraz wyświetlanych wyników. Ustawienia opcji wyszukiwania są zapamiętywane i nie trzeba ich dostosowywać przy każdym szukaniu. Giną dopiero po zamknięciu okna przeglądarki. Ustawienia językowe natomiast przechowywane są w pliku cookie, więc zostaną automatycznie przywrócone przy ponownym wejściu na stronę korpusu.
_________ ŹRÓDŁA:
|