Taalmodel

'n Taalmodel is 'n tipe masjienleermodel wat opgelei is om die waarskynlikheidsverspreiding van woorde in natuurlike taal te voorspel, gebaseer op die konteks van die gegewe teks.^[1] In wese probeer dit om die mees geskikte volgende woord te bepaal om 'n leë spasie in 'n sin in te vul, met die fokus op hoe woorde gebruik word op 'n manier soortgelyk aan menslike skryfwerk.

Taalmodelle is fundamentele komponente van natuurlike taalverwerking (NLP) omdat dit masjiene in staat stel om menslike taal te verstaan, te genereer en te ontleed. Hulle word opgelei met behulp van groot datastelle van teks, soos versamelings van boeke of artikels, en gebruik die patrone wat hulle uit hierdie opleidingsdata leer om die volgende woord in 'n sin te voorspel of nuwe teks te genereer wat grammatikaal korrek en semanties koherent is

Gebruike[wysig | wysig bron]

Taalmodelle is nuttig vir 'n verskeidenheid probleme in rekenaarlinguistiek; vanaf aanvanklike toepassings in spraakherkenning^[2] om te verseker dat onsinnige (d.w.s. lae-waarskynlikheid) woordreekse nie voorspel word nie, vir wyer gebruik in masjienvertaling^[3] (bv. evaluasie van kandidaatvertalings), natuurlike taalgenerering (generering van meer mensagtige teks), woordsoortetikettering, ontleding,^[3] optiese karakterherkenning, handskrifherkenning,^[4] grammatika-induksie,^[5] inligtingherwinning,^[6]^[7] en ander toepassings.

Taalmodelle word gebruik in inligtingherwinning in die navraagwaarskynlikheidsmodel. Daar word 'n aparte taalmodel met elke dokument in 'n versameling geassosieer. Dokumente word gerangskik op grond van die waarskynlikheid van die navraag Q in die dokument se taalmodel: $M_{d}$ : $P(Q\mid M_{d})$ . Gewoonlik word die unigram-taalmodel vir hierdie doel gebruik.

Gegewe enige volgorde van woorde van lengte $m$ , sal ‘n taalmodel ‘n waarskynlikheid $P(w_{1},\ldots ,w_{m})$ aan die hele volgorde toewys. Taalmodelle genereer waarskynlikhede deur opleiding op tekskorpusse in een of baie tale. Gegewe dat tale gebruik kan word om 'n oneindige verskeidenheid geldige sinne uit te druk (die eienskap van digitale oneindigheid), staan taalmodellering voor die probleem om nie-nul waarskynlikhede toe te ken aan linguisties geldige rye wat dalk nooit in die opleidingsdata teëgekom kan word nie. Verskeie modelleringsbenaderings is ontwerp om hierdie probleem te oorkom, soos die toepassing van die Markov-eienskap of die gebruik van neurale argitekture soos herhalende neurale netwerke of transformators.

Tipes[wysig | wysig bron]

Die modelle kan in twee kategorieë verdeel word: "Suiwer statistiese modelle" en "Neurale modelle". Elkeen van hierdie kategorieë het hul eie subkategorieë.

Suiwer statistiese modelle[wysig | wysig bron]

Woord n-gram[wysig | wysig bron]

Hierdie model is gebaseer op 'n aanname dat die waarskynlikheid van die volgende woord in 'n ry slegs afhang van 'n vaste grootte venster van vorige woorde.

Eksponensieel[wysig | wysig bron]

Maksimum entropietaalmodelle kodeer die verhouding tussen 'n woord en die n-gram-geskiedenis deur gebruik te maak van kenmerkfunksies.

Skip-gram model[wysig | wysig bron]

Skip-gram-taalmodel is 'n poging om die data-ylbaarheidsprobleem wat voorafgaande (d.w.s. woord n-gram-taalmodel) teëgekom het, te oorkom. Woorde wat in 'n inbeddingsvektor voorgestel word, was nie noodwendig meer opeenvolgend nie, maar kan gapings laat wat oorgeslaan word.^[8]

Neurale modelle[wysig | wysig bron]

Herhalende neurale netwerk (RNN)[wysig | wysig bron]

Deurlopende voorstellings of inbeddings van woorde word geproduseer in herhalende neurale netwerk-gebaseerde taalmodelle (ook bekend as kontinue ruimtetaalmodelle).^[9]

Groot taalmodelle (LLMs)[wysig | wysig bron]

'n Groot taalmodel (LLM) is 'n taalmodel wat opmerklik is vir sy vermoë om algemene doeltaalgenerering en -begrip te bereik.

Verwysings[wysig | wysig bron]

↑ Jurafsky, Dan; Martin, James H. (2021). "N-gram Language Models". Speech and Language Processing (3rd uitg.). Besoek op 24 Mei 2022.
↑ Kuhn, Roland, and Renato De Mori. "A cache-based natural language model for speech recognition." IEEE transactions on pattern analysis and machine intelligence 12.6 (1990): 570-583.
↑ ^3,0 ^3,1 Andreas, Jacob, Andreas Vlachos, and Stephen Clark. "Semantic parsing as machine translation." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2013.
↑ Pham, Vu, et al. "Dropout improves recurrent neural networks for handwriting recognition." 2014 14th International Conference on Frontiers in Handwriting Recognition. IEEE, 2014.
↑ Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman. "Grammar induction with neural language models: An unusual replication." arXiv preprint arXiv:1808.10000 (2018).
↑ (1998) "A language modeling approach to information retrieval" in Proceedings of the 21st ACM SIGIR Conference.: 275–281, ACM. doi:10.1145/290941.291008.
↑ Hiemstra, Djoerd (1998). "A linguistically motivated probabilistically model of information retrieval" in Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries.: 569–584, LNCS, Springer. doi:10.1007/3-540-49653-X_34.
↑ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (1 Maart 2003). "A neural probabilistic language model". The Journal of Machine Learning Research. 3: 1137–1155 – via ACM Digital Library.
↑ Karpathy, Andrej. "The Unreasonable Effectiveness of Recurrent Neural Networks". Geargiveer vanaf die oorspronklike op 1 November 2020. Besoek op 27 Januarie 2019.

[1] Jurafsky, Dan; Martin, James H. (2021). "N-gram Language Models". Speech and Language Processing (3rd uitg.). Besoek op 24 Mei 2022.

[2] Kuhn, Roland, and Renato De Mori. "A cache-based natural language model for speech recognition." IEEE transactions on pattern analysis and machine intelligence 12.6 (1990): 570-583.

[Semantic_parsing_as_machine_translation-3] 3,0 ^3,1 Andreas, Jacob, Andreas Vlachos, and Stephen Clark. "Semantic parsing as machine translation." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2013.

[4] Pham, Vu, et al. "Dropout improves recurrent neural networks for handwriting recognition." 2014 14th International Conference on Frontiers in Handwriting Recognition. IEEE, 2014.

[5] Htut, Phu Mon, Kyunghyun Cho, and Samuel R. Bowman. "Grammar induction with neural language models: An unusual replication." arXiv preprint arXiv:1808.10000 (2018).

[ponte1998-6] (1998) "A language modeling approach to information retrieval" in Proceedings of the 21st ACM SIGIR Conference.: 275–281, ACM. doi:10.1145/290941.291008.

[hiemstra1998-7] Hiemstra, Djoerd (1998). "A linguistically motivated probabilistically model of information retrieval" in Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries.: 569–584, LNCS, Springer. doi:10.1007/3-540-49653-X_34.

[8] Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (1 Maart 2003). "A neural probabilistic language model". The Journal of Machine Learning Research. 3: 1137–1155 – via ACM Digital Library.

[9] Karpathy, Andrej. "The Unreasonable Effectiveness of Recurrent Neural Networks". Geargiveer vanaf die oorspronklike op 1 November 2020. Besoek op 27 Januarie 2019.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]