Η Anthropic αποκλείει επικίνδυνα θέματα από το νέο μοντέλο Fable 5

Η Anthropic κυκλοφορεί το Claude Fable 5 με αυστηρές προφυλάξεις που αποκλείουν συζήτηση για κυβερνοασφάλεια, βιολογία και χημεία. Το νέο μοντέλο ξεπερνά τα προηγούμενα Opus αλλά περιορίζει πρόσβαση σε επικίνδυνα θέματα, αποτελώντας δίκοπο μαχαίρι μεταξύ ωφέλειας και ασφάλειας.

Η Anthropic ανακοίνωσε την κυκλοφορία του νέου μοντέλου Claude Fable 5, του πρώτου της στην κατηγορία "Mythos" που ξεπερνά τα προηγούμενα ορόσημα Opus σε συνολικές δυνατότητες. Ωστόσο, το νέο μοντέλο έρχεται με αυστηρές προφυλάξεις που αποτρέπουν την απάντηση σε ερωτήσεις που αφορούν κυβερνοασφάλεια, βιολογία και χημεία, θέματα που η εταιρεία θεωρεί πολύ επικίνδυνα για δημόσια πρόσβαση.

Το Fable 5 λειτουργεί στον ίδιο βασικό μηχανισμό με το Mythos 5, το οποίο αποδεικνύεται ότι ξεπερνά σε επιδόσεις τα προηγούμενα σύνορα της τεχνητής νοημοσύνης. Το Mythos 5 ωστόσο διατίθεται μόνο σε μια μικρή ομάδα "cyberdefenders" που κρίνονται αξιόπιστα μέσω του υπάρχοντος Project Glasswing. Αντίθετα, το δημόσια προσβάσιμο Fable 5 έχει σχεδιαστεί να ανακατευθύνει ερωτήσεις σε ορισμένα ευαίσθητα θέματα στο προηγούμενο μοντέλο Claude Opus 4.8 και να ειδοποιεί τον χρήστη όταν συμβαίνει αυτό.

Αυστηρές προφυλάξεις και ταξινόμηση επικίνδυνων θεμάτων

Η Anthropic δηλώνει ότι έχει ρυθμίσει αυτές τις προφυλάξεις να είναι "αυστηρότερες από το ιδανικό", πράγμα που σημαίνει ότι το σύστημα μπορεί περιστασιακά να αρνηθεί "αβλαβείς αιτήσεις" με τρόπο που αναγνωρίζει ότι μπορεί να είναι απογοητευτικός για τακτικούς χρήστες. Ωστόσο, η εταιρεία λέει ότι τέτοια ψευδώς θετικά αποτελέσματα εμφανίζονται σε λιγότερο από πέντε τοις εκατό όλων των συνεδριών σε δοκιμές και αξίζει τον κόπο για να αποφευχθούν καταστάσεις όπου το Mythos θα μπορούσε να παρέχει βοήθεια σε κακόβουλους παραβάτες για "να προκαλέσουν σοβαρή ζημιά που δεν θα μπορούσαν να λάβουν από άλλες πηγές".

Οι προφυλάξεις που βασίζονται σε θέματα του Fable 5 χτίζονται γύρω από ένα σύστημα ταξινομητών που έχουν σχεδιαστεί για να ανιχνεύουν ευρέως απαγορευμένα θέματα ερωτήσεων καθώς και τυχόν απόπειρες "jailbreak". Σε πάνω από 1.000 ώρες δοκιμών "red-team" με ένα πρόγραμμα bug bounty, η Anthropic δηλώνει ότι οι εξωτερικές ομάδες απέτυχαν να βρουν οποιαδήποτε καθολική μέθοδο παράκαμψης για το Fable 5. Το νέο μοντέλο επίσης αντιστάθηκε σε αυτοματοποιημένες απόπειρες παράκαμψης σε πολύ μεγαλύτερο βαθμό από τα προηγούμενα μοντέλα Claude Opus, σύμφωνα με την Anthropic.

Ανησυχίες για την "agentic hacking" και βιολογική έρευνα

Η εταιρεία δηλώνει ότι είναι ιδιαίτερα ανησυχημένη για την ικανότητα του Mythos 5 να εκτελεί "agentic hacking", εκτελώντας πολυμερείς κυβερνοεπιθέσεις με πολύ μεγαλύτερη ευκολία από τα προηγούμενα μοντέλα. Ωστόσο, δοκιμές από το Ινστιτούτο Ασφάλειας ΤΝ του Ηνωμένου Βασιλείου τους τελευταίους μήνες διαπίστωσαν ότι το Mythos Preview είχε παρόμοιες επιδόσεις με το GPT-5.5 της OpenAI σε μια σειρά προκλήσεων Capture the Flag, υποδεικνύοντας ότι η απόδοση του Mythos δεν είναι "μια σημαντική ανακάλυψη ειδική για ένα μοντέλο".

Μεταξύ των συνηθισμένων βελτιώσεων στα τεστ αναφοράς που αναφέρει η Anthropic για το Mythos 5 έναντι προηγούμενων μοντέλων συνοριακών δυνατοτήτων, η εταιρεία ισχυρίζεται για σημαντική άλμα στις δυνατότητες του μοντέλου στο τεστ ExploitBench που επικεντρώνεται στην κυβερνοασφάλεια. Το Mythos 5 σημείωσε 78 τοις εκατό στα τεστ εκμετάλλευσης ευάλωτου κώδικα, σημαντική αύξηση από το 40 τοις εκατό που σημείωσε το Opus 4.8, και ακόμη και από το 69 τοις εκατό που επιτεύχθηκε από το Mythos Preview.

Ενώ τα προηγούμενα μοντέλα της Anthropic μπλόκαραν ερωτήσεις σχετικές με βιολογικά όπλα, αυτός ο ταξινομητής εφαρμόζεται τώρα σε όλες τις ερωτήσεις που σχετίζονται με χημεία και βιολογία στο Fable 5. Η εταιρεία λέει ότι ανησυχεί ότι "κακόβουλοι δράστες με καλή χρηματοδότηση" θα μπορούσαν να χρησιμοποιήσουν ακόμη και φαινομενικά αβλαβείς ερωτήσεις σε αυτά τα θέματα για να βοηθήσουν σε "εξαιρετικά επικίνδυνη βιολογική έρευνα" με πολύ πιο αποτελεσματικό τρόπο από ό,τι με προηγούμενα μοντέλα.

Το δίλημμα της εμπιστοσύνης και οι τιμές πρόσβασης

Η Anthropic φαίνεται να κατανοεί ότι η απόκρυψη ορισμένων θεμάτων για το Fable 5 είναι κάπως δίκοπο μαχαίρι. Η εταιρεία γράφει ότι "οι ίδιες ερωτήσεις που είναι ωφέλιμες στα χέρια επαγγελματιών κυβερνοασφάλειας και ερευνητών βιολογίας θα μπορούσαν να είναι επικίνδυνες εάν διατίθονταν σε κακόβουλους δράστες".

Αυτό θέτει την Anthropic στην κάπως άβολη θέση να πρέπει να κρίνει ποιος είναι και ποιος δεν είναι αρκετά αξιόπιστος για να έχει πρόσβαση σε ένα μοντέλο που λέει ότι έχει δυνητικά επικίνδυνες δυνατότητες. Η εταιρεία λέει ότι θα επεκτείνει περιοδικά το υπάρχον πρόγραμμα Project Glasswing "σε διαβούλευση με την αμερικανική κυβέρνηση" για να επιτρέψει σε περισσότερους επαγγελματίες κυβερνοασφάλειας. Αυτή η επέκταση θα περιλαμβάνει επίσης ένα νέο πρόγραμμα αξιόπιστης πρόσβασης για οργανισμούς βιοεπιστημών που αφαιρεί τις προφυλάξεις βιολογίας/χημείας του Fable 5 ενώ διατηρεί τις προφυλάξεις κυβερνοασφάλειας.

Οι χρήστες API και Enterprise θα μπορούν να έχουν πρόσβαση στο μοντέλο Fable 5 με κόστος 10 δολαρίων ανά εκατομμύριο tokens εισόδου και 50 δολαρίων ανά εκατομμύριο tokens εξόδου από σήμερα. Αυτές οι τιμές είναι 67 έως 100 τοις εκατό υψηλότερες από εκείνες για το πρόσφατο GPT-5.5 της OpenAI, μια διαφορά που θα μπορούσε να είναι σημαντική σε μια εποχή που πολλοί χρήστες διστάζουν στο υψηλό κόστος των μοντέλων συνοριακών δυνατοτήτων.

Τα υπάρχοντα συνδρομητικά πακέτα της Anthropic θα περιλαμβάνουν πρόσβαση στο Fable 5 έως τις 22 Ιουνίου, μετά τις οποίες οι χρήστες θα χρειαστεί να αγοράσουν "πιστώσεις χρήσης" για πρόσβαση στο νέο μοντέλο. Η Anthropic λέει ότι ελπίζει τελικά να αποκαταστήσει την πρόσβαση στο Fable 5 ως τυπικό μέρος των συνδρομητικών πακέτων μόλις έχει "επαρκή χωρητικότητα" για να το κάνει.

Κατεβάστε το Toggle app

Η Anthropic αποκλείει επικίνδυνα θέματα από το νέο μοντέλο Fable 5

Share this article

Toggle Tech Team