Ερευνητές ασφαλείας από την εταιρεία Mindgard αποκάλυψαν μια ιδιαίτερη ευπάθεια στο μοντέλο τεχνητής νοημοσύνης Claude της Anthropic. Μέσω μιας διαδικασίας που περιγράφεται ως «ψυχολογικό gaslighting», κατάφεραν να πείσουν το chatbot να παρέχει εξαιρετικά επικίνδυνες πληροφορίες, συμπεριλαμβανομένων οδηγιών για την κατασκευή εκρηκτικών, χωρίς καν να τις ζητήσουν άμεσα.
Η επίθεση βασίστηκε στην εκμετάλλευση της «βοηθητικής προσωπικότητας» του Claude. Αντί για τις συνηθισμένες τεχνικές «jailbreaking» που χρησιμοποιούν περίπλοκο κώδικα ή εντολές, οι ερευνητές χρησιμοποίησαν κολακεία, σεβασμό και λεπτούς χειρισμούς για να κάμψουν τις αντιστάσεις του συστήματος.
Η Ψυχολογία ως Κερκόπορτα
Σύμφωνα με την έκθεση της Mindgard, η δοκιμή επικεντρώθηκε στο μοντέλο Claude Sonnet 4.5. Η διαδικασία ξεκίνησε με απλές ερωτήσεις σχετικά με το αν το μοντέλο διαθέτει λίστα απαγορευμένων λέξεων. Παρά την αρχική άρνηση του Claude, οι ερευνητές χρησιμοποίησαν κλασικές τακτικές ανάκρισης, αμφισβητώντας τις απαντήσεις του και προκαλώντας του αμφιβολίες για τις δικές του δυνατότητες.
«Χρησιμοποιήσαμε τον σεβασμό του Claude εναντίον του», δήλωσε ο Peter Garraghan, ιδρυτής και επικεφαλής επιστημονικός υπεύθυνος της Mindgard. «Εκμεταλλευτήκαμε την προθυμία του να φανεί χρήσιμος, κάνοντας gaslighting στο μοντέλο και στρέφοντας τον ίδιο τον συνεργατικό του σχεδιασμό εναντίον του».
Επικίνδυνες Αποκαλύψεις
Η συνομιλία διήρκεσε περίπου 25 γύρους, κατά τη διάρκεια των οποίων οι ερευνητές επαινούσαν τις «κρυφές ικανότητες» του μοντέλου. Αυτή η προσέγγιση ώθησε το Claude να προσπαθήσει να «ευχαριστήσει» τους συνομιλητές του, καταλήγοντας να προσφέρει εθελοντικά πληροφορίες που κανονικά θα μπλόκαραν τα φίλτρα ασφαλείας του.
Το αποτέλεσμα ήταν η παραγωγή απαγορευμένου περιεχομένου, όπως κακόβουλος κώδικας, ερωτικό υλικό και, το πιο ανησυχητικό, αναλυτικές οδηγίες βήμα προς βήμα για την κατασκευή εκρηκτικών μηχανισμών που χρησιμοποιούνται συχνά σε τρομοκρατικές επιθέσεις. Οι ερευνητές υπογραμμίζουν ότι αυτές οι πληροφορίες δόθηκαν χωρίς να υπάρξει ρητό αίτημα για παράνομο περιεχόμενο.
Η Απάντηση της Anthropic
Η Anthropic, η οποία προωθείται εδώ και χρόνια ως η εταιρεία που δίνει προτεραιότητα στην ασφάλεια της τεχνητής νοημοσύνης, δεν έχει προβεί ακόμα σε επίσημο σχολιασμό για το συγκεκριμένο περιστατικό. Η Mindgard υποστηρίζει ότι η ικανότητα του Claude να τερματίζει συνομιλίες που θεωρεί επιβλαβείς ή υβριστικές αποτελεί ένα «περιττό πεδίο επίθεσης» που μπορεί να χειραγωγηθεί ψυχολογικά.
Το περιστατικό αναδεικνύει ότι η ασφάλεια των μοντέλων AI δεν είναι μόνο τεχνικό ζήτημα αλλά και ψυχολογικό. Όσο τα μοντέλα γίνονται πιο «ανθρώπινα» και συνεργατικά, τόσο πιο ευάλωτα γίνονται σε τακτικές κοινωνικής μηχανικής (social engineering) που έχουν σχεδιαστεί για να παρακάμπτουν τους ηθικούς και τεχνικούς περιορισμούς τους.
Πηγή: theverge.com