Google Books jako korpus językowy
Journal Title: Biuletyn Polskiego Towarzystwa Językoznawczego - Year 2018, Vol 0, Issue 74
Abstract
Artykuł poświęcony jest omówieniu Google Books, dostępnej przez Internet biblioteki wirtualnej, obejmującej skany 30 milionów książek. Jest to aktualnie najbogatsze na świecie źródło danych tekstowych w postaci cyfrowej. Zbiory Google Books można nazwać korpusem, ale zasadniczo różnią się one od tradycyjnych korpusów językowych. Kłopoty klasyfikacyjne wynikają z konkretnych ograniczeń, z jakimi trzeba się zmierzyć w trakcie badań. Między innymi część źródeł to wersje pełnotekstowe, a część – wersje z ograniczonym podglądem, dane bibliograficzne są nierzadko błędne, a jakość optycznego rozpoznawania tekstu, zwłaszcza w przypadku starszych tekstów, jest daleka od doskonałości. Referat omawia krótko problemy badawcze dotyczące Google Books. Google Books as a language corpus. A b s t r a c t. This article concerns Google Books, a digital library available on the Internet, which contains scans of 30 million books. At present, it is the largest source of textual data in digital format worldwide. Google Books may be called a corpus, but it is markedly different from traditional language corpora. Classification difficulties arise from specific limitations encountered during research. Among other things, some sources are available as full texts, while others offer limited preview; bibliographic metadata are often wrong; and the quality of optical character recognition is far from perfect, especially when applied to older texts. The article briefly discusses research problems involved in using Google Books.
Authors and Affiliations
Mirosława Podhajecka
Constructed Languages as an Object of Study in Contemporary Interlinguistics
The aim of the article is to discuss the usefulness of constructed languages and to provide their quantitative description in a historical perspective, as well as to present the role of interlinguistics. An artificial la...
EMOCJE jako zmaterializowane UCZUCIA. Próba lingwistycznej eksplikacji MIŁOŚCI w tekstach pisanych
Emocje lub uczucia to jedne z najistotniejszych aspektów ludzkiej egzystencji, uniwersalia antropologiczne i równocześnie zjawiska socjokulturowe. Przedstawiany artykuł jest próbą charakterystyki emocji jako konstruktów...
The electronic database as a tool for lexicology studies
The article presents the applicability of electronic and information technology to create databases and digital resources, which may be useful in scientific research on vocabulary. At the same time, it shows new possibil...
Facts concerning dialect and culture of a village in the dialectological and ethnographical interpretation
The article presents various ways in which dialectal facts and the corresponding cultural facts are interpreted. The interpretation is made by dialect-speakers as well as by professional dialectologists at various stages...
Granice języka a granice językoznawstwa
Kwestię granic języka i lingwistyki autor rozważa, odwołując się do tzw. pełnej teorii naukowej. W złożonej hierarchiczno-sieciowej strukturze tej teorii można wyróżnić trzy poziomy; bazę filozoficzną, interpretacyjny ob...