Naujas tyrimas parodė, kad pakanka vos 250 kenkėjiškų dokumentų, kad būtų sugadintas dirbtinio intelekto (DI) didelės kalbos modelis (LLM), „neatsižvelgiant į modelio dydį ar mokymo duomenų kiekį“.

Jungtinėse Valstijose įsikūrusi dirbtinio intelekto įmonė „Anthropic“, kurianti „Claude“ modelius, neseniai paskelbė bendro tyrimo rezultatus, kurie atskleidė, kad dirbtinio intelekto modelių mokymo duomenų apsinuodijimas gali būti lengviau, nei manyta anksčiau. Bendras tyrimas yra didžiausias iki šiol apsinuodijimo tyrimas.

Tyrimą bendradarbiavo Anthropic’s Alignment Science komanda ir Jungtinės Karalystės AI saugumo instituto (AISI) apsaugos komanda ir Alano Turingo institutas, pirmasis yra vyriausybės įstaiga, atsakinga už pažangaus AI keliamos rizikos supratimą, o antrasis yra JK nacionalinis duomenų mokslo ir dirbtinio intelekto institutas.

„Mūsų rezultatai ginčija bendrą prielaidą, kad užpuolikai turi kontroliuoti tam tikrą treniruočių duomenų procentą“, – sakė Anthropic. „Vietoj to, jiems gali prireikti nedidelės, fiksuotos sumos.

Konkrečiai, tyrimas parodė, kad vos 250 kenkėjiškų dokumentų gali nuolat sukurti „užpakalinių durų pažeidžiamumą“ LLM, svyruojančią nuo 600 mln. iki 13 milijardų parametrų. Tai ginčija esamą prielaidą, kad didesniems modeliams reikia proporcingai daugiau užnuodytų duomenų.

LLM, pvz., Anthropic’s Claude, yra iš anksto apmokyti daug viešo teksto iš viso interneto, įskaitant asmenines svetaines ir tinklaraščio įrašus. Tai reiškia, kad bet kas gali sukurti internetinį turinį, kuris galiausiai gali patekti į modelio mokymo duomenis, įskaitant kenkėjiškus veikėjus, kurie gali įterpti konkretų tekstą į įrašus, kad modelis išmoktų nepageidaujamo ar pavojingo elgesio; procesas, žinomas kaip „apsinuodijimas“.

Vienas iš tokios atakos pavyzdžių yra vadinamųjų „užpakalinių durų“ įvedimas. Tai yra tam tikros frazės, sukeliančios tam tikrą modelio elgesį, kuris kitu atveju būtų paslėptas. Šie pažeidžiamumai gali kelti didelę riziką dirbtinio intelekto saugumui.

„Sukurti 250 kenkėjiškų dokumentų yra nereikšminga, palyginti su milijonų kūrimu, todėl šis pažeidžiamumas tampa kur kas prieinamesnis potencialiems užpuolikams“, – sakė Anthropic.

Nepaisant šių nerimą keliančių rezultatų, bendrovė taip pat paaiškino, kad tyrimas buvo sutelktas į „siauras užpakalines duris“, kurios greičiausiai nesukels didelės rizikos pasienio modeliuose. Potencialūs užpuolikai taip pat susiduria su papildomais iššūkiais, pavyzdžiui, sukurti atakas, kurios atsispirtų po treniruotės ir papildomos tikslinės gynybos.

„Todėl manome, kad šis darbas apskritai skatina stipresnės gynybos kūrimą”, – sakė Anthropic.

Nepaisant to, bendrovė teigė, kad dalijasi savo išvadomis, kad parodytų, jog apsinuodijimo duomenimis išpuoliai gali būti praktiškesni, nei tikėtasi, ir paskatintų tolesnius duomenų apsinuodijimo ir galimos apsaugos nuo jo tyrimus.

Anthropic buvo naujienų pradžioje šiais metais, kai AI startuolis paskelbė, kad per finansavimo etapą, kuriam vadovavo Lightspeed Venture Partners, surinko 3,5 mlrd.

Bendrovė teigė, kad papildomos investicijos bus panaudotos naujos kartos dirbtinio intelekto sistemoms kurti, jos skaičiavimo pajėgumams plėsti, mechanistinio aiškinimo ir derinimo tyrimams pagilinti ir tarptautinei plėtrai paspartinti.

Kad dirbtinis intelektas (AI) veiktų teisingai pagal įstatymus ir klestėtų susidūrus su vis didėjančiais iššūkiais, į jį reikia integruoti įmonės blokų grandinės sistemą, kuri užtikrintų duomenų įvesties kokybę ir nuosavybės teisę, leidžiančią saugoti duomenis ir kartu užtikrinti duomenų nekintamumą. Peržiūrėkite „CoinGeek“ aprėptį apie šią besivystančią technologiją, kad sužinotumėte daugiau, kodėl „Enterprise blockchain“ bus AI pagrindas.

Žiūrėti | Alexas Ballas apie technologijų ateitį: AI plėtra ir verslumas

title=”YouTube” vaizdo įrašų grotuvas” frameborder=”0″ allow=”pagreičio matuoklis; automatinis paleidimas; iškarpinė-rašymas; šifruota medija; giroskopas; paveikslėlis paveikslėlyje; bendrinimas internete” referrerpolicy=”strict-origin-when-cross-origin” allowfullscreen=””>

Nuoroda į informacijos šaltinį

By admin

Draugai: - Marketingo paslaugos - Teisinės konsultacijos - Skaidrių skenavimas - Fotofilmų kūrimas - Karščiausios naujienos - Ultragarsinis tyrimas - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Nuotekų valymo įrenginiai -  Padelio treniruotės - Pranešimai spaudai -