Gaan na inhoud

Spraakherkenning

in Wikipedia, die vrye ensiklopedie
Spraakherkenning
akademiese dissipline
Subklas vanrekenaarlinguistiek, natuurliketaalverwerking, klankherkenningWysig
Onderdeel vannatuurlike-taal-gebruikerskoppelvlakWysig
Begindatum1952Wysig
Het onmiddellike oorsaakspraakWysig
Het bydraende faktoroudiolêerformaatWysig

Spraakherkenning (ook bekend as outomatiese spraakherkenning of spraak‑na‑teks, Engels: Speech Recognition) is ’n interdissiplinêre veld binne rekenaarwetenskap en rekenaars-taalkunde wat metodologieë en tegnologieë ontwikkel waarmee rekenaars gesproke taal na teks kan omskakel. Dit staan ook bekend as ASR (Automatic Speech Recognition), rekenaarspraakherkenning of spraak‑na‑teks.

Werkgebiede uit verskeie dissiplines soos rekenaarwetenskap, taalkunde en rekenaaringenieurswese word hierin geïntegreer. Die teenoorgestelde proses staan bekend as spraaksintese (Engels: Speech Synthesis).

Sommige stelsels vereis ’n "opleiding‑" of "inskrywing‑fase", waar ’n individu ’n teks lees om die stelsel te help aanpas by daardie persoon se stem, wat die akkuraatheid verhoog. Hierdie stelsels word spreker‑afhanklik genoem. Stelsels wat sonder individuele opleiding werk, staan bekend as spreker‑onafhanklik.

Toepassings sluit in ʼn verskeidenheid gebruiksgevalle:

  • Spraakinvoergrepe soos stemdialering, oproepriglyne, beheer van slimtoestelle en sleutelwoordsog.
  • Data‑invoer (bv. kredietkaartnommers), voorberei van gestruktureerde dokumente (bv. radiologieverslae), en outomatiese transkripsie vir e-pos of woordverwerking.
  • Outomatiese uitspraakassessering vir taalonderrig.

Geskiedenis

[wysig | wysig bron]

Die ontwikkeling van spraakherkenning begin in die middel van die twintigste eeu:

  • In die vroeë jare (1950–1960’s): Bell Labs-navorsers soos Balashek, Biddulph en Davis bou ’n stelsel wat enkelsprekers se syfers kan herken, en IBM ontwikkel die *Shoebox*‑rekenaar in 1961 wat tot ses en twintig woorde kon herken.
  • Laat 1960’s–1970’s: Stanford-navorsers soos Raj Reddy lei die eerste projekte vir aaneenlopende spraak met groter woordeskat, gevolg deur DARPA se *Speech Understanding Research*‑program (1971–1976) wat navorsing by onder andere IBM en CMU finansier.
  • 1980’s: Verbeterde prestasie deur die oorskakeling na Hidden Markov Models (HMM), die ontwikkeling van n‑gram taalmodelle, en kommersiële produkte soos Dragon Dictate in 1990 en AT&T se Voice Recognition Call Processing in 1992.
  • 1990’s: Stelsels word *spreker-onafhanklik* met groot woordeskat; CMU se Sphinx‑II (1992) was baanbrekerwerk in aaneenlopende spraakherkenning.
  • 2000’s: Deep learning begin oorheers — Long Short‑Term Memory-netwerke (LSTM, sedert 1997) verbeter akkuraatheid aansienlik, met ’n uitsonderlike prestasieverbetering van byna 49 % in Google se spraakherkenning teen 2015.
  • 2010’s: Sprekersonafhanklike stelsels word die norm; in 2017 behaal Microsoft menslike‑pariteit op die Switchboard-taak. Transformer‑gebaseerde modelle begin ook meer gewild word.

Praktiese spraakherkenning

[wysig | wysig bron]

Spraakherkenningstelsels in praktiese gebruik moet baie uitdagings hanteer om akkuraat en bruikbaar te wees in regte wêreldomgewings:

  • Omgewingsgeraas: Agtergrondgeluide, soos verkeer, mense wat praat of wind, kan die akkuraatheid van spraakherkenning beïnvloed. Moderne stelsels gebruik mikrofoonreekse en geraasonderdrukkingstegnologieë om hierdie effekte te verminder.
  • Verskeidenheid aksente en dialekte: Stelsels moet robuust wees teenoor variasies in uitspraak en spraakpatrone van verskillende streke en tale.
  • Spraaksnelheid en toonhoogte: Mense praat teen verskillende tempo’s en met verskillende toonhoogtes. Spraakherkenning moet buigsaam wees om dit te hanteer sonder om betekenis te verloor.
  • Woordeskat en domeinspesifieke taalgebruik: Herkenning van terme wat uniek is aan sekere velde (soos medies of wetenskaplik) vereis aangepaste taalmodelle of spesifieke opleiding.
  • Rekenaarkrag en latency: Sommige toepassings, soos mobiele of ingebedde toestelle, het beperkte verwerkingsvermoë. Daarom is optimalisering vir spoed en doeltreffendheid belangrik.
  • Aanlyn vs. vanlyn herkenning: Aanlynstelsels gebruik dikwels kragtige wolkrekenaars vir beter akkuraatheid, maar vanlynstelsels is nodig in privaat- of lae‑konneksie-omgewings, en vereis dus meer doeltreffende plaaslike verwerking.

Ten spyte van hierdie uitdagings het moderne stelsels, danksy vordering in masjienleer en diep leer, aansienlik verbeter in robuustheid, akkuraatheid en bruikbaarheid in alledaagse toepassings.

Benaderings

[wysig | wysig bron]

Verskeie tegniese benaderings is oor die jare gebruik vir spraakherkenning. Die keuse van metode hang af van faktore soos beskikbare data, rekenaarkrag, en spesifieke toepassingsvereistes.

  • Op reëls gebaseerde stelsels: Die vroegste stelsels het staatgemaak op handgemaakte fonetiese en linguistiese reëls. Hierdie benadering was moeilik om te skaal na groot woordeskat en verskillende aksente.
  • Statistiese modellering: Hidden Markov Models (HMM’s) het in die 1980’s en 1990’s gewild geraak. Hulle modelleer die waarskynlikheid van sekere foneme of woorde wat volg op mekaar op grond van waargenome spraakkenmerke.
  • Neurale netwerke en diep leer: Moderne stelsels gebruik diep neurale netwerke (DNN’s), insluitend Long Short-Term Memory (LSTM) en meer onlangs, transformer-argitekture. Hierdie stelsels het gelei tot drastiese verbeterings in akkuraatheid en veerkragtigheid.
  • End-to-end herkenning: Hierdie benadering probeer om spraak direk na teks om te skakel sonder tussenliggende foneme of akoestiese modelle. Modelle soos Connectionist Temporal Classification (CTC) en attention-gebaseerde meganismes is tipies hier gebruik.
  • Transformers en selfaandag: Modelle soos Wav2Vec 2.0 en Whisper gebruik transformer-argitekture met selfaandag om spraakherkenning buigsaam en presies te maak, selfs onder moeilike toestande.

Die hedendaagse benadering is dikwels ’n kombinasie van tegnieke, afhangend van die toepassing — byvoorbeeld, ’n slimfoonassistent kan ’n end-to-end transformer gebruik wat in die wolk loop, terwyl ’n klein ingebedde toestel ’n liggewig HMM-gebaseerde stelsel gebruik.

Tegnologieë

[wysig | wysig bron]

Spraakherkenning integreer verskeie dissiplines en tegnologieë, insluitend:

  • Akoestiese modellering: Hierdie proses behels die omskakeling van klankgolwe na fonetiese eenhede. Modelle soos Hidden Markov Models (HMM’s) en meer onlangs neurale netwerke word gebruik om die klankstruktuur van spraak te herken.
  • Taalmodellering: Taalmodelle voorspel die waarskynlikheid van ’n sekere woord of frase wat op ’n ander volg. N‑gram-modelle is lank gebruik, maar vandag word groot neurale taalmodelle soos transformers gebruik.
  • Kenmerkonttrekking: Spraak seine word verwerk om belangrike kenmerke soos Mel-frequency cepstral coefficients (MFCC’s) of spectrogramme te onttrek, wat as invoer vir die herkenningsmodel dien.
  • Uitspraakleksikons: Leksikons verbind woorde aan hul fonetiese vorme, en help om verskillende uitsprake van dieselfde woord te hanteer.
  • Voorverwerking en normalisering: Voorverwerking sluit in ruisonderdrukking, stiltestukke verwydering, en volume-aanpassing om konsekwente invoer te verseker.
  • Sprekerherkenning en diarisasie: Hierdie tegnologieë word gebruik om te bepaal wie praat (sprekerherkenning) en om segmente van verskillende sprekers in gesprekke te onderskei (diarisasie).

Moderne stelsels gebruik transformer-gebaseerde argitekture soos Whisper en Wav2Vec 2.0 om akkurate resultate te lewer in uiteenlopende omgewings.[1]

Sien ook

[wysig | wysig bron]

Bronnelys

[wysig | wysig bron]
  • Pacheco-Tallaj, N. M. & Palacios, A. P. (2014). "Development of a Vocabulary and Grammar for an Open-Source Speech-driven Programming Platform to Assist People with Limited Hand Mobility". *Research report*.
  • Stodden, R. A. & Roberts, K. D. (2005). "The Use Of Voice Recognition Software As A Compensatory Strategy For Postsecondary Education Students Receiving Services Under The Category Of Learning Disabled." *Journal of Vocational Rehabilitation*, 22(1), 49––64.
  • Zaman, S. & Slany, W. (2014). "Smartphone-Based Online and Offline Speech Recognition System for ROS-Based Robots." *Information Technology and Control*, 43(4), 371–380.
  • "Speaker Independent Connected Speech Recognition – Fifth Generation Computer Corporation." *Fifthgen.com* (argief).
  • Nguyen, P. (2010). "Automatic classification of speaker characteristics".
  • Cerf, V., Wrubel, R. & Sherwood, S. "Can speech-recognition software break down educational language barriers?". *Curiosity.com* (Discovery Communications).
  • "Speech Recognition for Learning". National Center for Technology Innovation (2010).
  • Anusuya, M. A. & Katti, S. K. (2010). "Speech Recognition by Machine, A Review". *arXiv*:1001.2267.
  • Graves, A., Mohamed, A.-r., & Hinton, G. (2013). "Speech Recognition with Deep Recurrent Neural Networks". *arXiv*:1303.5778.
  • Hannun, A. et al. (2014). "Deep Speech: Scaling up end-to-end speech recognition". *arXiv*:1412.5567.
  • Chiu, C.-C. et al. (2017). "State-of-the-art Speech Recognition With Sequence-to-Sequence Models". *arXiv*:1712.01769.
  • Pieraccini, R. (2012). *The Voice in the Machine. Building Computers That Understand Speech*. MIT Press.
  • Yu, D. & Deng, L. (2014). *Automatic Speech Recognition: A Deep Learning Approach*. Springer.
  • Deng, L. & Yu, D. (2014). *Deep Learning: Methods and Applications*. Springer.
  • Rabiner, L. (1993). *Fundamentals of Speech Recognition*. PTR Prentice Hall.
  • Jelinek, F. (1997). *Statistical Methods for Speech Recognition*. MIT Press.
  • Huang, X. et al. (2001). *Spoken Language Processing*. Prentice Hall.
  • Schroeder, M. R. (2004). *Computer Speech*. MIT Press.
  • Deng, L. & O’Shaughnessey, D. (2003). *Speech Processing: A Dynamic and Optimization-Oriented Approach*. Marcel Dekker.
  • Jurafsky, D. & Martin, J. H. (2008). *Speech and Language Processing* (2de uitg.). Prentice Hall.
  • "Microsoft Speech API". *Wikipedia* (nuut).
  • "Whisper (speech recognition system)". *Wikipedia* (OpenAI).
  • Diverse toepassings, sagteware en konferensies soos Carnegie Mellon University Sphinx, HTK, Kaldi, Mozilla Common Voice, Dragon NaturallySpeaking, Siri, Google Voice Search, IBM ViaVoice, ICASSP, Interspeech, SpeechTEK en IEEE journals.

Verwysings

[wysig | wysig bron]
  1. Hannun, A. et al. (2014). "Deep Speech: Scaling up end-to-end speech recognition". arXiv:1412.5567.