Google Books jako korpus językowy

Journal Title: Biuletyn Polskiego Towarzystwa Językoznawczego - Year 2018, Vol 0, Issue 74

Abstract

Artykuł poświęcony jest omówieniu Google Books, dostępnej przez Internet biblioteki wirtualnej, obejmującej skany 30 milionów książek. Jest to aktualnie najbogatsze na świecie źródło danych tekstowych w postaci cyfrowej. Zbiory Google Books można nazwać korpusem, ale zasadniczo różnią się one od tradycyjnych korpusów językowych. Kłopoty klasyfikacyjne wynikają z konkretnych ograniczeń, z jakimi trzeba się zmierzyć w trakcie badań. Między innymi część źródeł to wersje pełnotekstowe, a część – wersje z ograniczonym podglądem, dane bibliograficzne są nierzadko błędne, a jakość optycznego rozpoznawania tekstu, zwłaszcza w przypadku starszych tekstów, jest daleka od doskonałości. Referat omawia krótko problemy badawcze dotyczące Google Books. Google Books as a language corpus. A b s t r a c t. This article concerns Google Books, a digital library available on the Internet, which contains scans of 30 million books. At present, it is the largest source of textual data in digital format worldwide. Google Books may be called a corpus, but it is markedly different from traditional language corpora. Classification difficulties arise from specific limitations encountered during research. Among other things, some sources are available as full texts, while others offer limited preview; bibliographic metadata are often wrong; and the quality of optical character recognition is far from perfect, especially when applied to older texts. The article briefly discusses research problems involved in using Google Books.

Authors and Affiliations

Mirosława Podhajecka

Keywords

Related Articles

Dawna polszczyzna i nowe technologie: testowanie metod przetwarzania języka naturalnego na materiale polskiego piśmiennictwa od średniowiecza po wiek XX

Celem niniejszego artykułu jest sprawdzenie, w jakim stopniu standardowe narzędzia do przetwarzania języka naturalnego dają się zastosować do anotowania korpusów historycz- nych. Kilka wybranych tekstów z XV–XX...

Basic categories for a theory and description of language

The present paper makes reference to its author’s work The Dynamics of Language (1976) and presents three basic and indispensable categories for language theory and language description, namely form, signification, and l...

Między przestrzenią a czasem. Ewolucja temporalnych przyimków wtórnych w polszczyźnie

Artykuł poświęcony został ewolucji wtórnych przyimków o znaczeniu temporalnym, których podstawą były wartości przestrzenne, np. koło, blisko, w przeciągu. Związek między treściami przestrzennymi i czasowymi uzn...

Towards a transboundary approach to the analysis of linguistic modality – elements of an empirical investigation of the modal auxiliary must in contemporary American English

The present article aims to demonstrate a transboundary approach to a linguistic modality analysis. The transboundary approach is perceived as such in which a researcher needs to cross certain boundaries in their studies...

Teoria Witolda Mańczaka dotycząca nieregularnego rozwoju fonetycznego spowodowanego frekwencją – od hipotezy do prawa językowego

Niedoceniana, niekiedy wręcz kwestionowana w Polsce teoria Witolda Mańczaka dotycząca nieregularnego rozwoju fonetycznego spowodowanego frekwencją od samego początku spotkała się z szerokim odzewem za granicą, wpływając...

Download PDF file
  • EP ID EP523436
  • DOI 10.17651/bptj.74.2
  • Views 116
  • Downloads 0

How To Cite

Mirosława Podhajecka (2018). Google Books jako korpus językowy. Biuletyn Polskiego Towarzystwa Językoznawczego, 0(74), 31-46. https://www.europub.co.uk/articles/-A-523436