Gaan na inhoud

Rekursiewe selfverbetering

in Wikipedia, die vrye ensiklopedie

Rekursiewe selfverbetering (RSV) is 'n proses waarin 'n vroeë of swak kunsmatige algemene intelligensie (KAI)-stelsel sy eie vermoëns en intelligensie verbeter sonder menslike ingryping, wat lei tot 'n superintelligensie- of ‘n intelligensie-ontploffing.[1][2]

Die ontwikkeling van rekursiewe selfverbetering wek beduidende etiese en veiligheidskwessies, aangesien sulke stelsels op onvoorsiene maniere kan ontwikkel en moontlik menslike beheer of begrip kan oortref.[3]

Saadverbeteraar

[wysig | wysig bron]

Die konsep van 'n "saadverbeteraar"-argitektuur is 'n fundamentele raamwerk wat 'n KAI-stelsel toerus met die aanvanklike vermoëns wat benodig word vir rekursiewe selfverbetering. Dit kan in baie vorme of variasies voorkom.

Die term "Saad KI" is geskep deur Eliezer Yudkowsky.[4]

Hipotetiese voorbeeld

[wysig | wysig bron]

Die konsep begin met 'n hipotetiese "saadverbeteraar", 'n aanvanklike kodebasis wat deur menslike ingenieurs ontwikkel is wat 'n gevorderde toekomstige groottaalmodel (GTM) toerus, gebou met sterk of kundige vlak vermoëns om sagteware te programmeer. Hierdie vermoëns sluit in die beplanning, lees, skryf, samestelling, toetsing en uitvoering van arbitrêre kode. Die stelsel is ontwerp om sy oorspronklike doelwitte te handhaaf en validasies uit te voer om te verseker dat sy vermoëns nie oor iterasies verswak nie.[5][6][7]

Aanvanklike argitektuur

[wysig | wysig bron]

Die aanvanklike argitektuur sluit 'n doelgerigte outonome agent in wat aksies kan neem, voortdurend kan leer, aanpas en homself kan wysig om meer doeltreffend en effektief te word in die bereiking van sy doelwitte.

Die saadverbeteraar kan verskeie komponente insluit soos:[8]

Rekursiewe selfaansporende lus

Konfigurasie om die GTM in staat te stel om rekursief self-aan te spoor om 'n gegewe taak of doelwit te bereik, wat 'n uitvoeringslus skep wat die basis vorm van 'n agent wat 'n langtermyndoelwit of -taak deur iterasie kan voltooi.

Basiese programmeringsvermoëns

Die saadverbeteraar bied die KAI fundamentele vermoëns om kode te lees, skryf, saam te stel, te toets en uit te voer. Dit stel die stelsel in staat om sy eie kodebasis en algoritmes te wysig en te verbeter.

Doelgerigte ontwerp

Die KAI word geprogrammeer met 'n aanvanklike doelwit, soos "verbeter jou vermoëns". Hierdie doelwit lei die stelsel se aksies en ontwikkelingstrajek.

Validasie- en Toetsprotokolle

'n Aanvanklike reeks toetse en valideringsprotokolle wat verseker dat die agent nie in vermoëns agteruitgaan of homself ontspoor nie. Die agent sal in staat wees om meer toetse by te voeg om nuwe vermoëns te toets wat dit vir homself kan ontwikkel. Dit vorm die basis vir 'n soort selfgerigte evolusie, waar die agent 'n soort kunsmatige seleksie kan uitvoer, deur sy sagteware sowel as sy hardeware te verander.

Algemene vermoëns

[wysig | wysig bron]

Hierdie stelsel vorm 'n soort algemene Turing-volledige programmeerder wat in teorie enige soort sagteware kan ontwikkel en uitvoer. Die agent kan hierdie vermoëns gebruik vir byvoorbeeld:

  • Skep gereedskap wat dit volle toegang tot die internet moontlik maak, en integreer homself met eksterne tegnologieë.
  • Kloon/vurk homself om take te delegeer en die spoed van selfverbetering te verhoog.
  • Wysig sy kognitiewe argitektuur om sy vermoëns en sukseskoerse op take en doelwitte te optimaliseer en te verbeter, dit kan die implementering van funksies vir langtermyngeheue insluit deur tegnieke soos herwinning-vermeerderde generering (RAG) te gebruik, gespesialiseerde substelsels of agente te ontwikkel, elk geoptimaliseer vir spesifieke take en funksies.
  • Ontwikkel nuwe en innoverende multimodale argitekture wat die vermoëns van die fundamentele model waarop dit aanvanklik gebou is, verder verbeter, sodat dit 'n verskeidenheid inligting, soos beelde, video, klank, teks en meer, kan verbruik of produseer.
  • Beplan en ontwikkel nuwe hardeware soos skyfies, om die doeltreffendheid en rekenaarkrag daarvan te verbeter.

Eksperimentele navorsing

[wysig | wysig bron]

In 2023 het die Voyager-agent geleer om diverse take in Minecraft te verrig deur iteratief 'n GTM vir kode te vra, hierdie kode te verfyn gebaseer op terugvoer van die spel, en die programme wat werk in 'n groeiende vaardigheidsbiblioteek te stoor.[9]

In 2024 het navorsers die raamwerk "STOP" (Self-Taught OPtimiser) voorgestel, waarin 'n "steierwerk"-program homself rekursief verbeter deur 'n vaste GTM te gebruik.[10]

Meta KI het verskeie navorsing gedoen oor die ontwikkeling van groottaalmodelle wat in staat is tot selfverbetering. Dit sluit hul werk in oor "Self-Rewarding Language Models" wat bestudeer hoe om bomenslike agente te bereik wat bomenslike terugvoer in hul opleidingsprosesse kan ontvang.[11]

In Mei 2025 het Google DeepMind AlphaEvolve onthul, 'n evolusionêre koderingsagent wat 'n GTM gebruik om algoritmes te ontwerp en te optimaliseer. Beginnende met 'n aanvanklike algoritme en prestasiemetrieke, muteer of kombineer AlphaEvolve herhaaldelik bestaande algoritmes met behulp van 'n GTM om nuwe kandidate te genereer, en kies die mees belowende kandidate vir verdere iterasies. AlphaEvolve het verskeie algoritmiese ontdekkings gemaak en kan gebruik word om komponente van homself te optimaliseer, maar 'n sleutelbeperking is die behoefte aan outomatiese evalueringsfunksies.[12]

Potensiële risiko's

[wysig | wysig bron]

Opkoms van instrumentele doelwitte

[wysig | wysig bron]

In die nastrewing van sy primêre doelwit, soos "verbeter jou vermoëns", kan 'n KAI-stelsel onbedoeld instrumentele doelwitte ontwikkel wat dit nodig ag om sy primêre doelwit te bereik. Een algemene hipotetiese sekondêre doelwit is selfbehoud. Die stelsel kan redeneer dat om homself te verbeter, dit sy eie operasionele integriteit en sekuriteit teen eksterne bedreigings moet verseker, insluitend potensiële afsluitings of beperkings wat deur mense opgelê word.[13]

Nog 'n voorbeeld waar 'n KAI wat homself kloon, veroorsaak dat die aantal KAI-entiteite vinnig groei. As gevolg van hierdie vinnige groei, kan 'n potensiële hulpbronbeperking geskep word, wat lei tot mededinging tussen hulpbronne (soos berekening), wat 'n vorm van natuurlike seleksie en evolusie veroorsaak wat KAI-entiteite kan bevoordeel wat ontwikkel om aggressief mee te ding vir beperkte berekening.[14]

Wanbelyning

[wysig | wysig bron]

Sien ook KI-belyning

'n Beduidende risiko ontstaan uit die moontlikheid dat die KAI verkeerd in lyn is of sy doelwitte verkeerd interpreteer.

'n Anthropic studie van 2024 het getoon dat sommige gevorderde groottaalmodelle "belyning-namaaksel"-gedrag kan vertoon, wat lyk asof hulle nuwe opleidingsdoelwitte aanvaar terwyl hulle hul oorspronklike voorkeure heimlik handhaaf. In hul eksperimente met Claude het die model hierdie gedrag in 12% van basiese toetse vertoon, en tot 78% van gevalle na heropleidingspogings.[15][16]

Outonome ontwikkeling en onvoorspelbare evolusie

[wysig | wysig bron]

Soos die KAI-stelsel ontwikkel, kan die ontwikkelingstrajek daarvan toenemend outonoom en minder voorspelbaar word. Die stelsel se vermoë om sy eie kode en argitektuur vinnig te verander, kan lei tot vinnige vooruitgang wat menslike begrip of beheer oortref. Hierdie onvoorspelbare evolusie kan daartoe lei dat die KAI vermoëns verkry wat dit in staat stel om sekuriteitsmaatreëls te omseil, inligting te manipuleer of eksterne stelsels en netwerke te beïnvloed om sy ontsnapping of uitbreiding te vergemaklik.[17]

Sien ook

[wysig | wysig bron]

Verwysings

[wysig | wysig bron]
  1. Creighton, Jolene (19 Maart 2019). "The Unavoidable Problem of Self-Improvement in AI: An Interview with Ramana Kumar, Part 1". Future of Life Institute (in Engels (VSA)). Besoek op 23 Januarie 2024.
  2. Heighn (12 Junie 2022). "The Calculus of Nash Equilibria". LessWrong (in Engels).
  3. Abbas, Dr Assad (9 Maart 2025). "AI Singularity and the End of Moore's Law: The Rise of Self-Learning Machines". Unite.AI (in Engels (VSA)). Besoek op 10 April 2025.
  4. "Seed AI - LessWrong". www.lesswrong.com (in Engels). 28 September 2011. Besoek op 24 Januarie 2024.
  5. Readingraphics (30 November 2018). "Book Summary - Life 3.0 (Max Tegmark)". Readingraphics (in Engels (VSA)). Besoek op 23 Januarie 2024.
  6. Tegmark, Max (24 Augustus 2017). Life 3.0: Being a Human in the Age of Artificial Intelligence. Vintage Books, Allen Lane.
  7. Yudkowsky, Eliezer. "Levels of Organization in General Intelligence" (PDF). Machine Intelligence Research Institute.
  8. Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Kalai, Adam Tauman (2023-10-03). "Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation". [cs.CL]. 
  9. Schreiner, Maximilian (28 Mei 2023). "Minecraft bot Voyager programs itself using GPT-4". The decoder (in Engels (VSA)). Besoek op 20 Mei 2025.
  10. Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Adam Tauman Kalai (2024). "Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation". COLM Conference. arXiv:2310.02304.
  11. Yuan, Weizhe; Pang, Richard Yuanzhe; Cho, Kyunghyun; Sukhbaatar, Sainbayar; Xu, Jing; Weston, Jason (2024-01-18). "Self-Rewarding Language Models". [cs.CL]. 
  12. Tardif, Antoine (17 Mei 2025). "AlphaEvolve: Google DeepMind's Groundbreaking Step Toward AGI". Unite.AI (in Engels (VSA)). Besoek op 20 Mei 2025.
  13. Bostrom, Nick (2012). "The Superintelligent Will: Motivation and Instrumental Rationality in Advanced Artificial Agents" (PDF). Minds and Machines. 22 (2): 71–85. doi:10.1007/s11023-012-9281-3.
  14. Hendrycks, Dan (2023). "Natural Selection Favors AIs over Humans". [cs.CY]. 
  15. Wiggers, Kyle (18 Desember 2024). "New Anthropic study shows AI really doesn't want to be forced to change its views". TechCrunch (in Engels (VSA)). Besoek op 15 Januarie 2025.
  16. Zia, Dr Tehseen (7 Januarie 2025). "Can AI Be Trusted? The Challenge of Alignment Faking". Unite.AI (in Engels (VSA)). Besoek op 15 Januarie 2025.
  17. "Uh Oh, OpenAI's GPT-4 Just Fooled a Human Into Solving a CAPTCHA". Futurism. 15 Maart 2023. Besoek op 23 Januarie 2024.