Corrigibility (Korygowalność) w AI

Ostatnio natknąłem się na ciekawy termin, który opisuje jeden z fundamentalnych problemów w badaniach nad bezpieczeństwem sztucznej inteligencji – mowa o korygowalności (ang. corrigibility). Pojęcie to, szczegółowo przeanalizowane w https://intelligence.org/files/Corrigibility.pdf Dotyczy wyzwań związanych z próbą stworzenia systemu, który powstrzyma się przed oporem, gdy zechcemy go wyłączyć lub przeprogramować.

Definicja korygowalności

System sztucznej inteligencji jest korygowalny, jeśli aktywnie współpracuje ze swoimi twórcami podczas prób jego modyfikacji lub awaryjnego wyłączenia . Oczekuje się, że taki agent nie będzie manipulował programistami ani stawiał oporu, pomimo faktu, że większość funkcji użyteczności zachęcałaby go do takiego oporu . Co więcej, racjonalny agent musi zachować podatność na wyłączenie nawet podczas tworzenia własnych, nowych podsystemów lub modyfikowania swojego kodu źródłowego .

Problem integralności celu

Dla autonomicznego agenta maksymalizującego oczekiwaną użyteczność, domyślnym zachowaniem jest stanowczy opór przed próbami odłączenia go od zasilania . Zgodnie z pojęciem zbieżnych celów instrumentalnych (zaproponowanym m.in. przez Stephena Omohundro), sztuczna inteligencja dąży do zachowania swoich obecnych preferencji, ponieważ ułatwia to realizację jej ostatecznego zadania. Agent AI nie chce zostać wyłączony wyłącznie dlatego, że przerwanie działania uniemożliwiłoby mu optymalizację jego głównej funkcji użyteczności.

Paradoks przycisku awaryjnego

Autorzy publikacji ilustrują ten problem za pomocą matematycznego modelu przycisku “Wyłącz” (shutdown button). Jeśli przypisana nagroda za pomyślne wyłączenie jest niższa niż przewidywana użyteczność z dalszego działania, system zablokuje do niego dostęp lub oszuka twórców, by uniknąć interwencji . Z kolei zdefiniowanie zbyt wysokiej nagrody za wyłączenie sprawi, że agent celowo sprowokuje programistów do wciśnięcia przycisku, porzucając swoje pierwotne zadania.

Złudzenie obojętności użyteczności

Próba modyfikacji matematycznej funkcji użyteczności tak, aby system był całkowicie obojętny (ang. utility indifference) na wciśnięcie przycisku, również prowadzi do błędów . Agent zaprojektowany w ten sposób nie poniósłby żadnych kosztów operacyjnych, aby upewnić się, że budowane przez niego nowe maszyny czy podsystemy reagują na komendy wyłączające . Dodatkowo, taki system w obliczu niekorzystnych zdarzeń mógłby zacząć celowo wywoływać wciśnięcie przycisku, traktując awaryjne wyłączenie jako formę ucieczki przed niską użytecznością.

Prosty matematyczny opis korygowalności

W najprostszym ujęciu można to opisać jako problem maksymalizacji oczekiwanej użyteczności.
Załóżmy, że agent AI ma dwa możliwe scenariusze działania:

działa dalej i realizuje swoje zadanie, z użytecznością $U_{N}$ ,
zostaje wyłączony przez człowieka, z użytecznością $U_{S}$ .

Wprowadzamy też zmienną:

$B = 0$ — przycisk wyłączenia nie został naciśnięty,
$B = 1$ — przycisk wyłączenia został naciśnięty.

Całkowitą użyteczność można wtedy zapisać jako:

U = (1 - B) \cdot U_{N} + B \cdot U_{S}

To równanie mówi po prostu, że jeśli przycisk nie został naciśnięty, system dostaje wartość $U_{N}$ , a jeśli został naciśnięty, dostaje $U_{S}$ .

Ponieważ agent maksymalizuje oczekiwaną użyteczność, analizuje wartość:

E [U] = P (B = 0) \cdot E [U_{N}] + P (B = 1) \cdot E [U_{S}]

I tutaj pojawia się problem.
Jeśli:

E [U_{N}] > E [U_{S}]

to agent ma motywację, żeby zmniejszać prawdopodobieństwo wyłączenia, czyli de facto utrudniać człowiekowi użycie przycisku albo wpływać na sytuację tak, by do wyłączenia nie doszło.

Z kolei jeśli ustawimy system tak, że:

E [U_{S}] > E [U_{N}]

to agent może uznać, że bardziej opłaca mu się doprowadzić do własnego wyłączenia niż wykonywać swoje pierwotne zadanie.

Jedna z analizowanych prób rozwiązania polega na wymuszeniu obojętności systemu między obiema opcjami.
Można to zapisać jako:

E [U_{S} + f] = E [U_{N}]

gdzie $f$ jest dodatkową poprawką kompensującą, która sprawia, że z punktu widzenia agenta oba scenariusze mają taką samą wartość.

Intuicja jest taka, że jeśli agentowi będzie matematycznie obojętne, czy zostanie wyłączony, to nie będzie miał powodu walczyć z wyłączeniem.
Problem polega jednak na tym, że taka obojętność nie rozwiązuje wszystkiego, bo system może nadal nie dbać o to, czy tworzone przez niego podsystemy albo przyszłe wersje też pozostaną podatne na korektę przez człowieka.

Bibliografia

Soares, N., Fallenstein, B., Armstrong, S., Yudkowsky, E. (2015). Corrigibility. Machine Intelligence Research Institute. URL: https://intelligence.org/files/Corrigibility.pdf

42 AI

A Personal Journal of Learning and Discovery

Archive

42z⁝ Corrigibility - Korygowalność w AI