Transformator (diep leer)

In diep leer is die transformator 'n kunsmatige neurale netwerkargitektuur gebaseer op die veelvuldige aandagkanale, waarin teks omgeskakel word na numeriese voorstellings genaamd tekseenhede, en elke tekseenheid (token) word omgeskakel na 'n vektor via opsoek vanaf 'n woordinbeddingstabel.[1] In elke laag word elke tekseenheid dan gekontekstualiseer binne die bestek van die konteksvenster met ander (ongemaskerde) tekseenhede via 'n parallelle veelvuldige aandagkanale, wat toelaat dat die sein vir sleuteltekseenhede versterk word en minder belangrike tekseenhede verminder word.
Transformators het die voordeel dat hulle geen herhalende eenhede het nie, en benodig dus minder opleidingstyd as vroeëre herhalende neurale argitekture (RNN's) soos lang korttermyngeheue (LSTM).[2] Latere variasies is wyd aangeneem vir die opleiding van groot taalmodelle (GTMe) op groot (taal) datastelle.[3]
Die moderne weergawe van die transformator is voorgestel in die 2017-artikel "Attention Is All You Need" deur navorsers by Google.[1] Die voorgangers van transformators is ontwikkel as 'n verbetering op vorige argitekture vir masjienvertaling,[4][5] maar het sedertdien baie toepassings gevind. Hulle word gebruik in grootskaalse natuurlike taalverwerking, rekenaarvisie (visietransformators), versterkingsleer,[6][7] oudio,[8] multimodale leer, robotika,[9] en skaak speel.[10] Dit het ook gelei tot die ontwikkeling van voorafopgeleide stelsels, soos generatiewe voorafopgeleide transformators (GPT's)[11] en BERT[12] (tweerigting-enkodeerdervoorstellings van transformators).
Geskiedenis
[wysig | wysig bron]Voorgangers
[wysig | wysig bron]Vir baie jare is volgordemodellering en -generering gedoen deur gewone herhalende neurale netwerke (RNN's) te gebruik. 'n Goed aangehaalde vroeë voorbeeld was die Elman-netwerk (1990). In teorie kan die inligting van een tekseenheid arbitrêr ver in die volgorde voortplant, maar in die praktyk laat die verdwyngradiëntprobleem die model se toestand aan die einde van 'n lang sin sonder presiese, onttrekbare inligting oor voorafgaande tekseenheid.
'n Belangrike deurbraak was LSTM (1995),[13] 'n RNN wat verskeie innovasies gebruik het om die verdwyngradiëntprobleem te oorkom, wat doeltreffende leer van langreeksmodellering moontlik gemaak het. Een belangrike innovasie was die gebruik van 'n aandagmeganisme wat neurone gebruik het wat die uitsette van ander neurone vermenigvuldig, sogenaamde vermenigvuldigende eenhede.[14] Neurale netwerke wat vermenigvuldigende eenhede gebruik, is later sigma-pi-netwerke[15] of hoër-orde netwerke genoem.[16] LSTM het die standaardargitektuur vir langreeksmodellering geword tot die 2017-publikasie van transformators. LSTM het egter steeds opeenvolgende verwerking gebruik, soos die meeste ander RNN's.[17] Spesifiek, RNN's werk met een tekseenheid op 'n slag van eerste tot laaste; hulle kan nie parallel oor alle tekseenhede in 'n reeks werk nie.
Moderne transformators oorkom hierdie probleem, maar anders as RNN's, benodig hulle berekeningstyd wat kwadraties is in die grootte van die konteksvenster. Die lineêr skalerende vinnige gewigbeheerder (1992) leer om 'n gewigsmatriks te bereken vir verdere verwerking, afhangende van die invoer.[18] Een van sy twee netwerke het "vinnige gewigte" of "dinamiese skakels" (1981).[19][20][21] 'n Stadige neurale netwerk leer deur gradiëntafdaling om sleutels en waardes te genereer vir die berekening van die gewigsveranderinge van die vinnige neurale netwerk wat antwoorde op navrae bereken.[18] Dit is later getoon as gelykstaande aan die ongenormaliseerde lineêre transformator.[22][23]
Verwysings
[wysig | wysig bron]- 1 2 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need" (PDF). Advances in Neural Information Processing Systems. 30. Curran Associates, Inc.
- ↑ Hochreiter, Sepp; Schmidhuber, Jürgen (1 November 1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
- ↑ "Better Language Models and Their Implications". OpenAI. 14 Februarie 2019. Geargiveer vanaf die oorspronklike op 19 Desember 2020. Besoek op 25 Augustus 2019.
- ↑ Bahdanau; Cho, Kyunghyun; Bengio, Yoshua (1 September 2014). "Neural Machine Translation by Jointly Learning to Align and Translate". [cs.CL].
- ↑ Luong, Minh-Thang; Pham, Hieu; Manning, Christopher D. (17 Augustus 2015). "Effective Approaches to Attention-based Neural Machine Translation". [cs.CL].
- ↑ Chen, Lili; Lu, Kevin; Rajeswaran, Aravind; Lee, Kimin; Grover, Aditya; Laskin, Michael; Abbeel, Pieter; Srinivas, Aravind et al. (2021-06-24), Decision Transformer: Reinforcement Learning via Sequence Modeling
- ↑ Parisotto, Emilio; Song, Francis; Rae, Jack; Pascanu, Razvan; Gulcehre, Caglar; Jayakumar, Siddhant; Jaderberg, Max; Kaufman, Raphaël Lopez; Clark, Aidan; Noury, Seb; Botvinick, Matthew; Heess, Nicolas; Hadsell, Raia (21 November 2020). "Stabilizing Transformers for Reinforcement Learning". Proceedings of the 37th International Conference on Machine Learning (in Engels). PMLR: 7487–7498.
- ↑ Radford, Alec; Jong Wook Kim; Xu, Tao; Brockman, Greg; McLeavey, Christine; Sutskever, Ilya (2022). "Robust Speech Recognition via Large-Scale Weak Supervision". [eess.AS].
- ↑ Monastirsky, Maxim; Azulay, Osher; Sintov, Avishai (Februarie 2023). "Learning to Throw With a Handful of Samples Using Decision Transformers". IEEE Robotics and Automation Letters. 8 (2): 576–583. Bibcode:2023IRAL....8..576M. doi:10.1109/LRA.2022.3229266. ISSN 2377-3766.
- ↑ Ruoss, Anian; Delétang, Grégoire; Medapati, Sourabh; Grau-Moya, Jordi; Wenliang, Li; Catt, Elliot; Reid, John; Genewein, Tim (2024-02-07). "Grandmaster-Level Chess Without Search". [cs.LG].
- ↑ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; von Platen, Patrick; Ma, Clara; Jernite, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drame, Mariama; Lhoest, Quentin; Rush, Alexander (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
- ↑ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog. 2 November 2018. Geargiveer vanaf die oorspronklike op 13 Januarie 2021. Besoek op 25 Augustus 2019.
- ↑ Gekontroleerde herhalende eenhede (2014) het die kompleksiteit daarvan verder verminder.
- ↑ Feldman, J. A.; Ballard, D. H. (1 Julie 1982). "Connectionist models and their properties". Cognitive Science. 6 (3): 205–254. doi:10.1016/S0364-0213(82)80001-3. ISSN 0364-0213.
- ↑ Rumelhart, David E.; McClelland, James L.; Hinton, Geoffrey E. (29 Julie 1987). Parallel Distributed Processing, Volume 1: Explorations in the Microstructure of Cognition: Foundations, Chapter 2 (PDF) (in Engels). Cambridge, Mass: Bradford Books. ISBN 978-0-262-68053-0.
- ↑ Giles, C. Lee; Maxwell, Tom (1 Desember 1987). "Learning, invariance, and generalization in high-order neural networks". Applied Optics (in Engels). 26 (23): 4972–4978. doi:10.1364/AO.26.004972. ISSN 0003-6935. PMID 20523475.
- ↑ Sommige argitekture, soos RWKV of toestandsruimtemodelle, vermy die probleem.
- 1 2 Schmidhuber, Jürgen (1992). "Learning to control fast-weight memories: an alternative to recurrent nets" (PDF). Neural Computation. 4 (1): 131–139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347.
- ↑ Christoph von der Malsburg: The correlation theory of brain function. Internal Report 81-2, MPI Biophysical Chemistry, 1981. http://cogprints.org/1380/1/vdM_correlation.pdf See Reprint in Models of Neural Networks II, chapter 2, pages 95–119. Springer, Berlin, 1994.
- ↑ Jerome A. Feldman, "Dynamic connections in neural networks," Biological Cybernetics, vol. 46, no. 1, pp. 27–39, Dec. 1982.
- ↑ Hinton, Geoffrey E.; Plaut, David C. (1987). "Using Fast Weights to Deblur Old Memories". Proceedings of the Annual Meeting of the Cognitive Science Society (in Engels). 9.
- ↑ (2020) "Transformers are RNNs: Fast autoregressive Transformers with linear attention".: 5156–5165, PMLR.
- ↑ (2021) "Linear Transformers Are Secretly Fast Weight Programmers".: 9355–9366, Springer.