Parallelle teks

’n Parallelle teks is ’n teks wat langs sy vertaling of vertalings geplaas word. Parallelleteksbelyning is die identifikasie van die ooreenstemmende sinne in beide helftes van die parallelle teks. Die Loeb Classical Library en die Klei Sanskrit-Biblioteek is twee voorbeelde van tweetalige reekse van tekste. Verwysingbybels kan die oorspronklike tale en ’n vertaling bevat, of ’n hele paar vertalings self, vir gemaklike vergelyking en studie; Origen se Hexapla (Grieks vir "sesvoudig") plaas ses weergawes van die Ou Testament langs mekaar. Die bekendste voorbeeld is die Rosettasteen.

Groot versamelings van parallelle tekste word parallelle korpora genoem (sien tekskorpus). Belynings van parallelle korpora op sinsvlak is ’n voorvereiste vir baie areas van taalkundige navorsing. Tydens die proses van vertaling kan sinne verdeel word, of saamgevoeg, verwyder, ingevoeg of geherrangskik word deur die vertaler. Belyning word derhalwe beskou as ’n nie-triviale taak.

Tipes parallelle korpora[wysig | wysig bron]

Vier hooftipes korpora kan onderskei word.

’n Parallelle korpus met geruis bevat tweetalige sinne wat nie perfek belyn is nie of wat swak vertaal is. Die grootste deel van die inhoud is egter tweetalige vertalings van ’n spesifieke dokument.

’n Vergelykbare korpus word gebou uit onbelynde (op sinsvlak) en onvertaalde tweetalige dokumente, maar die dokumente is belyn op die vlak van die onderwerp.

’n Deels vergelykbare korpus sluit baie heterogene en nie-parallelle tweetalige dokumente in wat moontlik op onderwerpsvlak belyn mag wees of nie.

Die seldsaamste parallelle korpora is korpora wat vertalings van dieselfde dokument in twee of meer tale bevat en ten minste belyn is op sinsvlak.

Geruis in die korpora[wysig | wysig bron]

Groot korpora wat gebruik word as opleidingstelle vir masjienvertaalalgoritmes word gewoonlik onttrek uit groot liggame van soortgelyke bronne, soos databasisse van nuusartikels wat in die eerste en tweede tale geskryf is en wat soortgelyke gebeure beskryf.

Onttrekte fragmente kan geruis bevat, met ekstra elemente wat by elke korpus bygevoeg kan word. Onttrekkingstegnieke kan onderskei tussen tweetalige elemente wat in beide korpora voorkom en eentalige elemente wat in slegs een korpus voorkom, sodat skoner parallelle fragmente van tweetalige elemente onttrek kan word. Vergelykbare korpora word gebruik om direk kennis te onttrek vir vertalingsdoeleindes. Parallelle data van ’n hoë gehalte is egter moeilik om te bekom, veral vir tale wat oor weinig taalhulpbronne beskik.^[1]

Biteks[wysig | wysig bron]

’n Biteks is, in die veld van vertaalstudies, ’n saamgevoegde dokument wat bestaan uit weergawes van beide die bron- en die teikentale van ’n gegewe teks.

Bitekste word gegenereer deur ’n stuk sagteware wat ’n belynings- of 'n biteks-instrument genoem word, wat outomaties die oorspronklike en vertaalde weergawes van dieselfde teks belyn. Die instrument belyn gewoonlik die twee tekste sin vir sin. ’n Versameling bitekste staan bekend as ’n biteks-databasis of ’n tweetalige korpus, en kan geraadpleeg word deur middel van ’n soekinstrument.

Bitekste en vertaalgeheues[wysig | wysig bron]

Die konsep van die biteks toon sekere ooreenkomste met dié van die vertaalgeheue. Oor die algemeen is daar een belangrike verskil tussen ’n biteks en ’n vertaalgeheue:

’n Vertaalgeheue is 'n databasis wat sy segmente (ooreenstemmende sinne) stoor op 'n manier wat heeltemal onverwant is aan hul oorspronklike konteks; die oorspronklike sinsorde gaan verlore. ’n Biteks behou die oorspronklike sinsorde.

Sommige implementasies van die vertaalgeheue, soos Translation Memory eXchange (TMX) (’n standaard XML-formaat vir die uitruil van vertaalgeheues tussen rekenaargesteunde vertaalprogramme (sogenaamde CAT-programme), maak voorsiening vir die behoud van die oorspronklike sinsorde.

Bitekste is ontwerp om geraadpleeg te word deur ’n menslike vertaler, nie deur ’n masjien nie. As sulks is klein belyningsfoute of geringe verskille wat sou veroorsaak dat ’n vertaalgeheue misluk, van geen belang nie.

In sy oorspronklike artikel van 1988 stel Brian Harris dat bitekste ’n verteenwoordiging is van hoe vertalers hul bron- en teikentekste in hul werkende herinneringe bymekaarhou soos hulle vorder. Hierdie hipotese is egter nie opgevolg nie.^[2]

Sien ook[wysig | wysig bron]

Rekenaargesteunde hersiening
Masjienvertaling
Natuurliketaalverwerking
Polyglot (boek)
Ruby-karakter
Tweetalige inskrywing

Eksterne skakels[wysig | wysig bron]

Verwysings[wysig | wysig bron]

↑ Wołk, K. (2015). "Noisy-Parallel and Comparable Corpora Filtering Methodology for the Extraction of Bi-Lingual Equivalent Data at Sentence Level". Computer Science (16.2): 169–184.
↑ Harris, B. Bi-text, a new concept in translation theory, Language Monthly (UK) 54, p. 8-10, March 1988.
↑ Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaž Erjavec; Dan Tufiş; Dániel Varga (2006).

[1] Wołk, K. (2015). "Noisy-Parallel and Comparable Corpora Filtering Methodology for the Extraction of Bi-Lingual Equivalent Data at Sentence Level". Computer Science (16.2): 169–184.

[2] Harris, B. Bi-text, a new concept in translation theory, Language Monthly (UK) 54, p. 8-10, March 1988.

[3] Ralf Steinberger Ralf; Bruno Pouliquen; Anna Widiger; Camelia Ignat; Tomaž Erjavec; Dan Tufiş; Dániel Varga (2006).

[1]

[2]

[3]