Η εταιρεία τεχνολογίας Google ανακοίνωσε συνεργασία με την Boston Dynamics για την ενσωμάτωση των μοντέλων ενσωματωμένης λογικής Gemini Robotics στο τετράποδο ρομπότ Spot, σηματοδοτώντας ένα βήμα προς τα εμπρός στην εφαρμογή της τεχνητής νοημοσύνης στη ρομποτική του πραγματικού κόσμου. Η συνεργασία επιτρέπει στο ρομπότ να ερμηνεύει καλύτερα το περιβάλλον του, να αναγνωρίζει αντικείμενα και να εκτελεί εργασίες με βάση οδηγίες φυσικής γλώσσας, αντί να βασίζεται αποκλειστικά σε προγραμματισμένες ρουτίνες.
Η ενσωμάτωση βασίζεται σε πειραματική εργασία που πραγματοποιήθηκε κατά τη διάρκεια ενός εσωτερικού hackathon το 2025, όπου οι προγραμματιστές εξερεύνησαν πώς τα μεγάλα γλωσσικά μοντέλα και τα συστήματα οπτικής λογικής θα μπορούσαν να ενισχύσουν την αυτονομία του Spot. Αξιοποιώντας το Gemini Robotics, το ρομπότ μπορεί να επεξεργάζεται οπτική είσοδο από τις κάμερές του και να μετατρέπει οδηγίες υψηλού επιπέδου—όπως η οργάνωση αντικειμένων σε ένα δωμάτιο—σε συντονισμένες φυσικές ενέργειες.
Σε αντίθεση με τον παραδοσιακό προγραμματισμό ρομποτικής, που συχνά εξαρτάται από άκαμπτη, βήμα προς βήμα λογική, το σύστημα εισάγει μια πιο ευέλικτη διεπαφή βασισμένη σε συνομιλιακές προτροπές. Οι προγραμματιστές δημιούργησαν ένα ενδιάμεσο επίπεδο λογισμικού χρησιμοποιώντας το κιτ ανάπτυξης λογισμικού του Spot, επιτρέποντας στα μοντέλα Gemini να επικοινωνούν με τη διεπαφή προγραμματισμού εφαρμογών του ρομπότ. Αυτό το πλαίσιο επιτρέπει στην τεχνητή νοημοσύνη να επιλέγει από ένα καθορισμένο σύνολο ενεργειών, συμπεριλαμβανομένης της πλοήγησης, της ανίχνευσης αντικειμένων, της λήψης εικόνων, της αρπαγής και της τοποθέτησης.
Σε πρακτικές επιδείξεις, το σύστημα έδειξε την ικανότητα να ερμηνεύει γενικές οδηγίες και να προσαρμόζεται σε δυναμικά περιβάλλοντα. Για παράδειγμα, όταν του ανατέθηκε να οργανώσει αντικείμενα, το μοντέλο τεχνητής νοημοσύνης ανέλυσε οπτικά δεδομένα, αναγνώρισε σχετικά αντικείμενα και κατηύθυνε το ρομπότ μέσα από μια ακολουθία ενεργειών. Η ανατροφοδότηση από το ρομπότ—όπως η ολοκλήρωση εργασιών ή οι φυσικοί περιορισμοί—ενσωματώθηκε σε πραγματικό χρόνο, επιτρέποντας στο σύστημα να προσαρμόσει τη συμπεριφορά του χωρίς χειροκίνητη παρέμβαση.
Η προσέγγιση διατηρεί λειτουργικά όρια περιορίζοντας την τεχνητή νοημοσύνη σε προκαθορισμένες δυνατότητες εντός του API του ρομπότ, διασφαλίζοντας προβλέψιμη και ελεγχόμενη απόδοση. Αυτός ο σχεδιασμός εξισορροπεί την προσαρμοστικότητα με την ασφάλεια, μια βασική εκτίμηση για την ανάπτυξη τεχνητής νοημοσύνης σε φυσικά συστήματα.
Η συνεργασία επισημαίνει επίσης πιθανά κέρδη απόδοσης για τους προγραμματιστές. Μειώνοντας την ανάγκη για εκτεταμένη χειροκίνητη κωδικοποίηση, οι διεπαφές φυσικής γλώσσας επιτρέπουν στους μηχανικούς να εστιάσουν στον καθορισμό στόχων αντί να προγραμματίζουν κάθε ακολουθία ενεργειών. Αυτή η μετατόπιση θα μπορούσε να επιταχύνει την ανάπτυξη εφαρμογών ρομποτικής σε διάφορους κλάδους όπως η μεταποίηση, η επιθεώρηση και η εφοδιαστική.
Αν και η υλοποίηση παραμένει πειραματική, η επίδειξη αντικατοπτρίζει ευρύτερες τάσεις στη φυσική τεχνητή νοημοσύνη, όπου τα θεμελιώδη μοντέλα χρησιμοποιούνται όλο και περισσότερο για να ενισχύσουν την αντίληψη και τη λήψη αποφάσεων των μηχανών. Και οι δύο εταιρείες έχουν υποδείξει ότι περαιτέρω εξελίξεις βρίσκονται σε εξέλιξη, συμπεριλαμβανομένης της συνεχιζόμενης ενσωμάτωσης συστημάτων βασισμένων στο Gemini σε πλατφόρμες ρομποτικής.
Η συνεργασία υποδηλώνει μια μετάβαση προς πιο διαισθητική αλληλεπίδραση ανθρώπου-μηχανής, όπου η πολύπλοκη ρομποτική συμπεριφορά μπορεί να καθοδηγηθεί μέσω απλοποιημένων εισόδων. Καθώς τα μοντέλα τεχνητής νοημοσύνης συνεχίζουν να εξελίσσονται, τέτοιες ενσωματώσεις μπορεί να επεκτείνουν το λειτουργικό πεδίο των αυτόνομων συστημάτων μειώνοντας παράλληλα τα τεχνικά εμπόδια για την ανάπτυξή τους.
Η ανάρτηση Η Google Και Η Boston Dynamics Ενσωματώνουν Τα Μοντέλα Ρομποτικής Gemini Στο Spot Για Προηγμένη Αντίληψη Και Εκτέλεση Εργασιών εμφανίστηκε πρώτα στο Metaverse Post.


