Корпус тэкстаў

З Вікіпедыі, свабоднай энцыклапедыі

Ко́рпус тэ́кстаў (лац.: corpus — цела), (у лінгвістыцы і лексікаграфіі) збор тэкстаў, выказванняў, або іншых моўных адзінак, якія лічацца дастаткова характэрнымі для мовы. Звычайна афармляецца ў базу дадзеных, апрацоўваецца сродкамі інфарматыкі.

У шырокім сэнсе — збор тэкстаў пэўнага роду, асабліва калі з’яўляецца поўным і самадастатковым.

Прыклады: шматмоўны паралельны корпус сказаў Tatoeba, Беларускі N-корпус.