Tekskorpus

in Wikipedia, die vrye ensiklopedie
Spring na: navigasie, soek

'n Tekskorpus, of bloot 'n korpus (meervoud korpora of korpusse), is in taalkunde of linguistiek 'n groot en gestruktureerde stel tekste, wat deesdae gewoonlik elektronies gestoor en verwerk word. Korpora word gebruik om statistiese analises uit te voer, hipoteses te toets, voorvalle na te gaan of taalkundige reëls binne 'n spesifieke taalgebied te bevestig.

Oorsig[wysig | wysig bron]

'n Tekskorpus kan tekste in 'n enkele taal bevat (enkeltalige korpus) of in veelvuldige tale (meertalige korpus). Meertalige korpora wat spesifiek ontwerp word om met mekaar vergelyk te word, word belynde parallelle korpora genoem.

Om korpora nuttiger te maak vir taalkundige navorsing word daar gewoonlik annotasie uitgevoer. 'n Voorbeeld van korpusannotasie is woordsoortetikettering, waar inligting oor elke woord se woordsoort (werkwoord, selfstandige of byvoeglike naamwoord ens.) tot die korpus bygevoeg word in die vorm van etikette. Nog 'n voorbeeld is die aanduiding van die lemma (basisvorm) van elke woord. Indien die taal van die korpus nie deur die navorsers wat dit gebruik, gepraat word nie, kan 'n interlineêre glos geskep word om die annotasie tweetalig te maak.

Sommige korpora bevat bykomende gestruktureerde vlakke van ontleding. 'n Klein aantal korpora kan selfs volledige sintaktiese ontledings bevat. Sulke korpora word boombanke of sintakties geanaliseerde korpora genoem. Hierdie korpora is gewoonlik kleiner as gevolg van die feit dat dit moeilik is om te verseker dat die hele korpus op 'n volledige en konsekwente wyse geannoteer word. Ander vlakke van taalkundige gestruktureerde ontledings is moontlik. Dit sluit morfologiese, semantiese en pragmatiese ontleding in.

Korpora is die belangrikste kennisbasis in die veld van korpuslinguistiek. Die ontleding en verwerking van verskillende tipes korpora is ook die onderwerp van heelwat studies in rekenaarlinguistiek, spraakherkenning en masjienvertaling, waar hulle gewoonlik gebruik word om versteekte Markov-modelle vir woordsoortetikettering en ander take te skep. Korpora en afgeleide frekwensielyste word ook in taalonderrig gebruik. Korpora kan gebruik word as 'n hulpmiddel vir die aanleer van vreemde tale omdat die gekontekstualiseerde grammatikale kennis wat deur leerders opgedoen word deur middel van blootstelling aan outentieke teks, hulle in staal stel om te leer hoe sinne in die doeltaal gevorm word, wat hulle weer help om hulle doeltreffender in die taal uit te druk.

Argeologiese korpora[wysig | wysig bron]

Tekskorpora kan ook gebruik word in die studie van historiese dokumente, soos in die ontsyfering van antieke geskrifte of in die Bybelwetenskappe. Sommige argeologiese korpora is so klein dat hulle slegs 'n klein blik werp op daardie periode. Een van die kleinste korpora wat bestaan, is die Amarna-briewe (1350 v.C.), wat 'n periode van 15 tot 30 jaar dek. Die korpus van 'n antieke stad (soos byvoorbeeld die Kültepe-tekste van Turkye) kan 'n stel korpora beslaan wat bepaal word deur die datums waarop hulle gevind is.