Корпус тэкстаў

З пляцоўкі Вікіпедыя
Jump to navigation Jump to search

Ко́рпус тэ́кстаў (лац.: corpus — цела), (у лінгвістыцы і лексікаграфіі) збор тэкстаў, выказванняў, або іншых моўных адзінак, якія лічацца дастаткова характэрнымі для мовы. Звычайна афармляецца ў базу дадзеных, апрацоўваецца сродкамі інфарматыкі.

У шырокім сэнсе — збор тэкстаў пэўнага роду, асабліва калі з’яўляецца поўным і самадастатковым.

Прыклад: шматмоўны паралельны корпус сказаў Tatoeba.