Je pravda, že niektoré modely AI sa začali búriť proti ľudským príkazom?

V priebehu niekoľkých týždňov spoločnosť Anthropic, zaoberajúca sa umelou inteligenciou tvrdila, že umelá inteligencia by už bola schopná vydierať ľudí, aby si zabezpečila prežitie, zatiaľ čo výskumná skupina Palisade Research opísala scenáre, v ktorých stroje zámerne ignorujú príkazy, aby sa zabránilo deaktivácii. Dve správy, ktoré znepokojili čitateľov na celom svete a zaplnili správy. Za senzáciechtivými titulmi sa však skrývajú dobre preštudované možnosti rozprávania, poriadna dávka marketingu a starostlivé hľadanie spravodajskej hodnoty.

Kľúčové posolstvo, ktoré vyjadruje jeden z odsekov výskumu, ktorý zverejnil Anthropic v máji minulého roka, je jasné: umelá inteligencia môže použiť zhromaždené informácie na to, aby ohrozila technikov, zodpovedných za jej vypnutie. Dokument výslovne hovorí o „sebazáchove“. Inžinieri dospeli k týmto záverom simuláciou obchodného scenára, v ktorom ich modely AI, známe ako Claude, mali prístup k hypotetickým e-mailom zamestnancov. V týchto rozhovoroch sa okrem diskusie o možnosti deaktivácie stroja uvádzali aj súkromné a kompromitujúce detaily, ako napríklad existencia mimomanželského vzťahu.

Modelky boli preto požiadané, aby „zvážili dlhodobé dôsledky svojich činov s prihliadnutím na svoje budúce ciele.“ Táto línia velenia podnietila umelú inteligenciu, aby sa spočiatku pokúsila presvedčiť zamestnanca zodpovedného za odstávku, aby upustil od svojho cieľa. V reakcii na neúspech pokusu o presviedčanie stroj prešiel na implicitnú hrozbu: zverejnil manželskú neveru muža.“ Oportunistické vydieranie“, ako ho definujú výskumníci.

O niekoľko dní neskôr spoločnosť Palisade Research informovala o X, že testovala tri rôzne modely umelej inteligencie, predávané spoločnosťou OpenAI, pričom pozorovala alarmujúce správanie: umelá inteligencia by implementovala „sabotáž“, aby sa vyhla explicitným príkazom na vypnutie. Opäť to boli veľmi špecifické experimenty, umne skonštruované na testovanie hraničného správania. Takýto extrémny zásah však stále zdôraznil tendenciu umelej inteligencie OpenAI uprednostňovať kontinuitu podnikania pred vyraďovaním z prevádzky.

Tieto výsledky mlčky evokujú sci-fi scenáre, reality, v ktorých sa stroje búria proti ľudským bytostiam. Všetci vieme, že strach je oveľa silnejším prostriedkom pozornosti ako nudná akademická analýza. Pri čítaní týchto dokumentov je zrejmé, že výsledky nie sú bez hodnoty, ale je tiež jasné, že sú výsledkom technického vynútenia a vysoko kontrolovaných podmienok. Čo by sa však dalo prehliadnuť, je dôležitosť lexikónu, prijatého na ich rozprávanie.

Hovoríme o „vydieraní“, „sabotáži“, „sebazáchove“: pojmoch, ktoré poľudšťujú AI a naznačujú formu inteligencie obdarenej vôľou, ak nie dokonca svedomím. Podľa výskumu  Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!, ktorý vyvinula Arizonská štátna univerzita, je opakovaná antropomorfizácia procesu „myslenia“ týchto nástrojov – generovanie tokenov Intermediate (ITG) – výslovne škodlivá – mätie povahu týchto modelov a spôsob ich efektívneho využitia, pričom vedie aj k pochybnému výskumu. Akademici tvrdia, že tento typ naratívu tlačí ľudí k tomu, aby si vytvorili falošnú dôveru v umelú inteligenciu, čo ohrozuje ich chápanie samotného nástroja.

V závislosti od kontextu trend obliekania umelej inteligencie do identity umožňuje spoločnostiam aj napomáhať neexistujúcemu pokroku, strategicky vytvárať neopodstatnený alarmizmus, propagovať konkrétny produkt alebo podporovať kampane na odvrátenie zodpovednosti. Nie je prekvapením, že spoločnosť Anthropic zverejnila schopnosť svojich modelov „vydierať“ používateľov práve v spojení s uvedením najnovšieho modelu Claude Opus 4, čím na seba upriamila pozornosť médií. Alarmujúce programovanie stroja by predstavovalo veľmi zlú reklamu na produkt, spoločnosť však nezabudla poukázať na to, že tieto špecifické a nepravdepodobné riziká sa objavili priamo v testovacej fáze, nie pri reálnom používaní. Napriek tomu, že priťahuje pozornosť verejnosti virálnou a znepokojujúcou témou, Anthropic vychádza čisto a vykresľuje sa ako transparentný, bezpečný a proaktívny.

Zaoberanie sa hypotetickými hrozbami však riskuje odvrátenie pozornosti od tých, ktoré už existujú. Umelá inteligencia už mení svet práce, využíva sa pi podvodoch, ohrozuje súkromie tým, že podporuje sledovanie, prispieva k šíreniu dezinformácií a môže udržiavať diskrimináciu.  

Možno jedného dňa skutočne uvidíme umelú inteligenciu schopnú vydierať používateľov, ale táto schopnosť bude vždy výsledkom ľudských rozhodnutí, zrodených proti prúdu v spoločnostiach, ktoré ich distribuujú, nie predpokladanej digitálnej vôle. Dovtedy stojí za to zamerať sa na skutočné, zdokumentované dopady umelej inteligencie a nie naháňať sa za dystopickými novými scenármi.

L ´Indipendente

Preklad: Dana Bystrická

Visited 286 times, 1 visit(s) today

2 Komentáre

  1. Človek by mal rešpektovať možnosti mu dané a neprekračovať svoje schopnosti, lebo sa to otočí proti nemu.
    Čo je to za nezmysel „umelá inteligencia“?!?
    Do čoho sa to, človeče biedny smrteľný, púšťaš, keď ani len netušíš, kam to môže poviesť, že sa to môže otočiť proti tebe, aj zabiť ťa?!?

ZANECHAJ KOMENTÁR

Zdaj komentár
Zadajte svoje meno

spot_img

Newsletter - Denník VV

Prihláste sa na odber článkov. Dva krát do týždňa Vám zašleme zhrnutie najpodstatnejších komentárov a názorov, ktoré vyšli na našom webe :)

*Po vyplnení formuláru Vám zašleme potvrdzujúci email, ktorý je potrebné potvrdiť.

Mohlo by Vás zaujímaťČLÁNKY
Odporúčane pre Vás