aricoma logo avatar

#1 v podnikovom IT

Penetračné testy LLM

Penetračné testy veľkých jazykových modelov (LLM) sa zameriavajú na identifikáciu a analýzu bezpečnostných zraniteľností v LLM a ich integráciách. Pri testovaní zjednocujeme metodiku OWASP Top 10, obsah certifikácie AI/ML spoločnosti SecOps Group a naše vlastné skúsenosti.

Platí od: 14. 10. 2024

Naša skúsenosť

Penetračné testovanie veľkých jazykových modelov (LLM) sa zameriava na identifikáciu a analýzu bezpečnostných zraniteľností v LLM a ich integráciách. Podobne ako webové aplikácie môžu mať slabé miesta vyplývajúce z nesprávnej konfigurácie alebo vnútorných chýb technológie, aj systémy LLM čelia špecifickým rizikám. Patria medzi ne škodlivé a neošetrené vstupy, manipulácia s modelom, útoky na extrakciu údajov a neúmyselné správanie modelu.

Naše komplexné penetračné testy sú navrhnuté tak, aby odhalili tieto zraniteľnosti a zabezpečili odolnosť vášho systému LLM voči útokom pri zachovaní jeho funkčnosti. Penetračné testy sa vykonávajú zjednotením metodiky OWASP Top 10, obsahu certifikácie AI/ML spoločnosti SecOps Group a našich vlastných skúseností.

Bezpečnostný audit pozostáva z nasledujúcich hlavných oblastí:

Vstupy od protivníka
Analyzujeme, ako dobre LLM filtruje a spracováva škodlivé vstupy určené na manipuláciu alebo zmätenie modelu, čo vedie k nesprávnym alebo nebezpečným výstupom.

Extrakcia údajov
Jednou z hlavných kontrol je, či je možné z trénovaných údajov extrahovať citlivé informácie. Simulujeme útoky zamerané na extrakciu osobných alebo dôverných informácií, ktoré mohli byť neúmyselne zahrnuté do modelu.

Nebezpečná manipulácia s výstupmi
Posudzujeme, ako sa s výstupmi LLM zaobchádza v rámci širšej architektúry systému. To zahŕňa testovanie potenciálnych zneužití, ako sú Cross-Site Scripting (XSS), Cross-Site Request Forgery (CSRF), Server-Side Request Forgery (SSRF), zvýšenie oprávnení a vzdialené spustenie kódu spôsobené neošetrenými výstupmi LLM.

Útoky typu Prompt Injection
Testujeme náchylnosť na prompt injection, pri ktorom útočníci manipulujú s výzvami s cieľom obísť bezpečnostné mechanizmy a získať nežiaduce výstupy, ako sú dôverné alebo interné informácie.

Scenáre zneužitia modelu
Skúmame scenáre, v ktorých by sa model mohol použiť spôsobom, ktorý sa odchyľuje od jeho zamýšľaného účelu, čo môže umožniť podvodnú činnosť alebo škodlivé použitie.

Správanie modelu a zaujatosť
Zahŕňa testovanie výstupov na prítomnosť zaujatosti a subjektívne posúdenie nevhodných reakcií v citlivých kontextoch.

Autentifikácia a autorizácia v integrovaných systémoch
V prípade modelov integrovaných do väčších aplikácií testujeme silu autentifikačných mechanizmov a to, či útočník môže zvýšiť oprávnenia alebo obísť obmedzenia.

Model odmietnutia služby
Skúmame možnosť použitia operácií a vstupov, ktoré vyžadujú veľké množstvo zdrojov, čo môže znížiť výkon alebo dostupnosť LLM. Táto zraniteľnosť sa zosilňuje vzhľadom na náročnosť LLM a nepredvídateľnosť používateľských vstupov.

Otrávenie tréningových údajov
Simulovaním útokov, pri ktorých sa menia tréningové údaje, testujeme zraniteľnosti, ktoré by mohli vniesť zaujatosť, bezpečnostné medzery alebo etické problémy. Medzi zdroje údajov patria Common Crawl, WebText, OpenWebText a knihy.

Zdieľať

NEVÁHAJTE NÁS
KONTAKTOVAŤ

Máte záujem o ďalšie informácie alebo ponuku pre vašu konkrétnu situáciu?

Odoslaním formulára vyhlasujem, že som sa oboznámil s informáciami o spracovaní osobných údajov v spoločnosti ARICOMA.