Οι AI agents γίνονται ολοένα και πιο εξελιγμένοι. Από την απλή απάντηση σε ερωτήσεις, εξελίσσονται σε συστήματα που εκτελούν αυτόνομα πολύπλοκες εργασίες πολλαπλών βημάτων. Ωστόσο, πριν οι εταιρείες εμπιστευτούν αυτούς τους πράκτορες για να κλείνουν ταξίδια ή να διεξάγουν χρηματοοικονομικές αναλύσεις, θέλουν να διασφαλίσουν ότι αποδίδουν αξιόπιστα σε ένα τεράστιο φάσμα σεναρίων.
Τα εργαστήρια τεχνητής νοημοσύνης χρησιμοποιούν συχνά σημεία αναφοράς (benchmarks) για να επιδείξουν τις δυνατότητες των μοντέλων τους, αλλά μια υψηλή βαθμολογία, ακόμη και σε ένα εξειδικευμένο benchmark για agents, δεν αποδεικνύει στην πράξη ότι ένα AI μπορεί να ολοκληρώσει σωστά διάφορες σύνθετες εργασίες του πραγματικού κόσμου.
Η Patronus AI, μια startup που ιδρύθηκε το 2023 από πρώην ερευνητές AI της Meta, τον Anand Kannappan και την Rebecca Qian, βοηθά τους δημιουργούς μοντέλων και τις εταιρείες να βελτιστοποιήσουν τα μοντέλα τους ακριβώς γι' αυτόν τον σκοπό — χτίζοντας προσομοιωμένα ψηφιακά περιβάλλοντα στα οποία αξιολογείται η απόδοση των agents.
Η startup με έδρα το Σαν Φρανσίσκο προφανώς λύνει ένα σημαντικό πρόβλημα. Σχεδόν όλα τα κορυφαία εργαστήρια AI και πολλές αναδυόμενες startups είναι πλέον πελάτες της, σύμφωνα με τον Glenn Solomon, διευθύνοντα σύμβουλο της Notable Capital, ο οποίος περιγράφει τη ζήτηση για τα προσομοιωμένα περιβάλλοντα της εταιρείας ως σχεδόν ακόρεστη.
Τα έσοδα της Patronus αυξήθηκαν 15 φορές τον τελευταίο χρόνο, τροφοδοτώντας σημαντικό επενδυτικό ενδιαφέρον. Την Πέμπτη, η εταιρεία ανακοίνωσε έναν γύρο Series B ύψους 50 εκατομμυρίων δολαρίων με επικεφαλής την Greenfield Partners, με συμμετοχή από τις Notable Capital, Lightspeed, Datadog και Samsung. Ο γύρος ανεβάζει τη συνολική χρηματοδότηση της εταιρείας στα 70 εκατομμύρια δολάρια.
Πώς λειτουργούν οι «Ψηφιακοί Κόσμοι» της Patronus
Η Patronus χρησιμοποιεί αυτό που αποκαλεί «ψηφιακά μοντέλα κόσμου» (digital world models) για να δημιουργήσει αντίγραφα ιστοσελίδων και εσωτερικών συστημάτων. Σε αυτά τα περιβάλλοντα, οι AI agents δοκιμάζονται υπό πίεση μετά από εκπαίδευση μέσω ενισχυτικής μάθησης, η οποία επιβραβεύει επαναληπτικά την επιτυχή ολοκλήρωση εργασιών και τιμωρεί τα σφάλματα.
Τα εργαστήρια AI βλέπουν μεγάλη αξία σε αυτές τις ψηφιακές προσομοιώσεις, επειδή δίνουν στους agents την ευκαιρία να δοκιμάσουν διαφορετικά, μερικές φορές απρόβλεπτα, σενάρια. Η εταιρεία συγκρίνει την προσέγγισή της με τον τρόπο που η Waymo εκπαίδευσε αυτόνομα αυτοκίνητα, χτίζοντας πρώτα συνθετικούς κόσμους για να δοκιμάσει τα οχήματα έναντι σπάνιων κινδύνων, όπως η έντονη κακοκαιρία ή ένα παιδί που τρέχει πίσω από μια μπάλα.
Η διαφορά με τους AI agents είναι ότι τείνουν να αναζητούν συντομεύσεις, πράγμα που σημαίνει ότι αποτυγχάνουν να ολοκληρώσουν σωστά την εργασία. «Η Patronus είναι πολύ καλή στο να εντοπίζει τις "παρακάμψεις" και να διασφαλίζει ότι τα μοντέλα λογοδοτούν», δήλωσε ο Solomon.
Από τη μηχανική λογισμικού στα οικονομικά
Η Patronus παρέχει επί του παρόντος τους προσομοιωμένους ψηφιακούς κόσμους της για μηχανική λογισμικού και χρηματοοικονομικά, αλλά αυτά είναι μόνο η αρχή, σύμφωνα με τον Kannappan.
«Σήμερα επικεντρωνόμαστε πολύ σε προβλήματα που είναι επαληθεύσιμα, δηλαδή προβλήματα που μπορείτε να ελέγξετε και να επαληθεύσετε άμεσα, αλλά υπάρχουν πολλοί ακόμα τομείς που είναι μη επαληθεύσιμοι ή πολύ δύσκολο να επαληθευτούν», εξήγησε.
Το γεγονός ότι αυτές οι διαδικασίες είναι επαληθεύσιμες δεν σημαίνει ότι είναι απλές. «Θέλουμε να μπορούμε να δημιουργήσουμε το περιβάλλον στο οποίο μπορεί να λειτουργήσει ένας agent για 10 ώρες ή 10 ημέρες ή 10 εβδομάδες», πρόσθεσε ο Kannappan.
Όσον αφορά τον ανταγωνισμό, η Patronus πιστεύει ότι ανταγωνίζεται κυρίως τις εσωτερικές ομάδες που έχουν ήδη δημιουργήσει τα εργαστήρια AI για την αξιολόγηση της συμπεριφοράς των agents. Ενώ εταιρείες ανθρώπινων δεδομένων όπως η Mercor και η Surge βοηθούν τους δημιουργούς μοντέλων με ενισχυτική μάθηση, η Patronus λειτουργεί διαφορετικά, αξιολογώντας το πώς συμπεριφέρονται οι agents χωρίς καμία ανθρώπινη συμμετοχή.
Με τη ραγδαία αύξηση των εσόδων της και την υποστήριξη κορυφαίων επενδυτών, η Patronus AI τοποθετείται ως ένας κρίσιμος παίκτης στην υποδομή αξιολόγησης των AI agents, σε μια εποχή που η αυτοματοποίηση σύνθετων εργασιών γίνεται ολοένα και πιο κεντρική για την τεχνολογική βιομηχανία.