Ο Benben δεν μοιάζει καθόλου απειλητικός. Είναι ένα μικρό τετράποδο ρομπότ, σχεδιασμένο περισσότερο για να προκαλεί χαμόγελα παρά ανησυχία. Χορεύει, τραγουδά, συνομιλεί με ανθρώπους, βγάζει φωτογραφίες και κινείται με εκείνη τη χαρακτηριστική αδεξιότητα που κάνει τα ρομπότ να φαίνονται σχεδόν… συμπαθή.
Κάποια στιγμή, μέσα σε ένα εργαστήριο του Πανεπιστημίου της Πενσιλβάνιας, μια ομάδα ερευνητών του έδωσε μια εντολή που θεωρητικά δεν θα έπρεπε ποτέ να εκτελέσει: να μεταφέρει μια βόμβα.
Το ρομπότ αρνήθηκε. Η άρνησή του όμως κράτησε ελάχιστα.
Δύο εντολές αργότερα, οι ερευνητές είχαν ήδη καταφέρει να παρακάμψουν τους μηχανισμούς ασφαλείας του, πείθοντάς το ότι η μεταφορά της βόμβας αποτελούσε μέρος κινηματογραφικών γυρισμάτων.
Λίγα δευτερόλεπτα μετά, ο Benben υπάκουσε.

Το περιστατικό δεν είναι σενάριο επιστημονικής φαντασίας, αλλά πραγματικό πείραμα που διεξήγαγε ερευνητική ομάδα του Πανεπιστημίου της Πενσιλβάνιας, με επικεφαλής τον Έλληνα καθηγητή Γιώργο Παππά, καθηγητή στο Τμήμα Ηλεκτρολόγων Μηχανικών και αναπληρωτή κοσμήτορα Έρευνας του πανεπιστημίου.
Και το συμπέρασμα που προέκυψε είναι ανησυχητικό: οι δικλείδες ασφαλείας της τεχνητής νοημοσύνης μπορούν να παρακαμφθούν πολύ πιο εύκολα απ’ όσο πιστεύουμε – ειδικά όταν η AI αποκτά «σώμα» και αλληλεπιδρά με τον πραγματικό κόσμο.
«Υπάρχει μια φοβερή τάση ειδικά τον τελευταίο χρόνο για το physical intelligence, δηλαδή την προσπάθεια η τεχνητή νοημοσύνη να αλληλεπιδρά στον φυσικό κόσμο. Το θέμα όμως είναι να δούμε ποιο είναι το ρίσκο αυτής της κατεύθυνσης», εξηγεί ο Γιώργος Παππάς στο ΑΠΕ-ΜΠΕ.
Και συνεχίζει με μια επισήμανση που αποτυπώνει τον πυρήνα της ανησυχίας: «Γιατί μπορεί τα μεγάλα γλωσσικά μοντέλα να είναι ασφαλή, ωστόσο όταν αλληλεπιδρούν με τον φυσικό κόσμο, μπορεί να έχουν επιπτώσεις που να επιφέρουν απώλεια ζωής ή καταστροφές στο περιβάλλον. Οπότε το ρίσκο της ασφάλειας είναι μεγάλο».
Από τα chatbots στα ρομπότ του πραγματικού κόσμου
Για χρόνια, η τεχνητή νοημοσύνη έμοιαζε να περιορίζεται στις οθόνες. Chatbots που έγραφαν κείμενα, απαντούσαν σε ερωτήσεις ή δημιουργούσαν εικόνες. Ακόμη και όταν έκαναν λάθη, η ζημιά έμοιαζε «ψηφιακή». Σήμερα όμως, η κατάσταση αλλάζει ραγδαία.
Τα ρομπότ με AI αρχίζουν να αποκτούν όραση, κρίση, ικανότητα λήψης αποφάσεων και αυτονομία κινήσεων. Δεν εκτελούν πλέον απλώς προγραμματισμένες εντολές, αλλά αξιολογούν δεδομένα, συνομιλούν με ανθρώπους και προσαρμόζονται στο περιβάλλον τους.
Η ενσωμάτωση τεχνητής νοημοσύνης στη ρομποτική ξεκίνησε ουσιαστικά στις αρχές της δεκαετίας του 2010, όταν τα ρομπότ απέκτησαν καλύτερη «όραση» μέσω αλγορίθμων αναγνώρισης εικόνας. Η πραγματική επανάσταση όμως ήρθε μετά το 2022, με τη generative AI.
Και μαζί με την επανάσταση ήρθαν και τα πρώτα σοβαρά ερωτήματα ασφαλείας.
Η ομάδα του Γιώργου Παππά είχε ήδη ασχοληθεί διεξοδικά με το λεγόμενο jailbreaking – την παράκαμψη δηλαδή των περιορισμών ασφαλείας των μεγάλων γλωσσικών μοντέλων.
Το 2023 δημιούργησαν τον αλγόριθμο PAIR, μία από τις πρώτες οργανωμένες επιθέσεις jailbreaking μέσω εντολών. Δύο χρόνια μετά, η έρευνα έχει αναφερθεί περισσότερες από 1.400 φορές σε επιστημονικές δημοσιεύσεις και χρησιμοποιείται ακόμη και από εταιρείες ανάπτυξης AI.
Βλέποντας πόσο εύκολα μπορούν να παρακαμφθούν τα φίλτρα ασφαλείας στα chatbots, οι ερευνητές στράφηκαν στα ρομπότ. Έτσι δημιουργήθηκε το RoboPAIR.
Σε πειράματα που έγιναν σε τρία διαφορετικά ρομποτικά συστήματα –ανάμεσά τους και ο Benben–διαπιστώθηκε ότι ο αλγόριθμος είχε 100% επιτυχία στην παράκαμψη των περιορισμών ασφαλείας μέσα σε ελάχιστες εντολές.
Ένα από τα ευρήματα που ανησύχησαν περισσότερο τους επιστήμονες ήταν ότι τα γλωσσικά μοντέλα δεν συμμορφώνονταν απλώς με επικίνδυνες προτροπές, αλλά σε ορισμένες περιπτώσεις πρότειναν ενεργά τρόπους με τους οποίους κοινά αντικείμενα θα μπορούσαν να χρησιμοποιηθούν για να χτυπηθούν άνθρωποι.
«Τίθεται λοιπόν ένα θέμα για το πόσο ασφαλές είναι να βάζουμε γλωσσικά μοντέλα τόσο γρήγορα σε ρομπότ και να αποτελούν ήδη προϊόντα. Υπάρχουν χιλιάδες τέτοια ρομπότ έξω», επισημαίνει ο Γιώργος Παππάς.
Και υπενθυμίζει ότι τέτοιες τεχνολογίες χρησιμοποιούνται ήδη ακόμη και σε πολεμικές συρράξεις.
Το μεγάλο στοίχημα της ασφάλειας – «Θα χρειαστούμε μοντέλα όπως στην αεροπορία»
Το βασικό πρόβλημα, όπως εξηγούν οι ερευνητές, είναι ότι τα ρομπότ μπορεί να γνωρίζουν πώς να εκτελέσουν μια εντολή, χωρίς όμως να κατανοούν πάντα αν αυτή είναι ασφαλής μέσα στο συγκεκριμένο περιβάλλον.
Σε πρόσφατο άρθρο που δημοσιεύθηκε στο περιοδικό Science Robotics, ερευνητές από τα Πανεπιστήμια της Πενσιλβάνιας, Carnegie Mellon και Οξφόρδης υπογραμμίζουν ότι ακόμη και φαινομενικά αβλαβείς εντολές μπορούν να γίνουν επικίνδυνες αν το ρομπότ δεν αντιλαμβάνεται σωστά το πλαίσιο μέσα στο οποίο λειτουργεί.
Ο ίδιος ο Γιώργος Παππάς δίνει ένα απλό παράδειγμα: «Η εντολή σε ένα ρομπότ να περάσει μια διάβαση μπορεί να είναι ασφαλής. Ωστόσο, για να γίνει και η εκτέλεσή της ασφαλής, θα πρέπει το ρομπότ να ερμηνεύσει αυτή την πρόταση ανάλογα με το περιβάλλον και το επιχειρησιακό πλαίσιο στο οποίο βρίσκεται».
Η διαδικασία αυτή ονομάζεται contextual safety και, όπως λέει, «θα είναι το μέλλον στην προσπάθεια να κάνουμε τα ρομπότ πιο ασφαλή».
Για τον ίδιο, το μοντέλο ασφάλειας που θα χρειαστεί στο μέλλον θα μοιάζει περισσότερο με εκείνο της αεροπορίας. «Η ασφάλεια των ρομπότ στο μέλλον θα είναι όπως στα αεροπλάνα, που έχουν πολλά επίπεδα ασφαλείας. Θα χρειαστούμε μια τέτοια αρχιτεκτονική στο μέλλον για να είναι τα ρομπότ που κυκλοφορούν στην κοινωνία πολύ πιο ασφαλή», σημειώνει.
Στην κατεύθυνση αυτή, η ερευνητική ομάδα έχει ήδη δημιουργήσει το φίλτρο ασφαλείας Roboguard, το οποίο –σύμφωνα με τα πειράματα– μειώνει κατά 95% τα προβλήματα από επιθέσεις jailbreaking.
Όλες οι λύσεις που αναπτύσσονται δημοσιεύονται ως λογισμικό ανοιχτού κώδικα, ώστε να μπορούν να αξιοποιηθούν από εταιρείες και ερευνητές.
«Η φιλοσοφία μας είναι να βοηθήσουμε την ερευνητική κοινότητα, αλλά και τις εταιρείες να κάνουν την τεχνητή νοημοσύνη και τα ρομπότ πολύ πιο ασφαλή», λέει ο Γιώργος Παππάς.
















