Το Meta διδάσκει στα μοντέλα AI την τέχνη της διάκρισης μεταξύ σημαντικών εντολών και άλλων.
Μοντέλα συλλογισμού όπως το OpenAI o1 και το DeepSeek-R1 έχουν πρόβλημα με την υπερβολική σκέψη. Αν της κάνετε μια απλή ερώτηση όπως, «Τι είναι το 1+1;», θα σκεφτεί για αρκετά δευτερόλεπτα πριν απαντήσει.

Στην ιδανική περίπτωση, τα μοντέλα τεχνητής νοημοσύνης, όπως και οι άνθρωποι, θα πρέπει να μπορούν να προσδιορίζουν πότε να παρέχουν μια άμεση απάντηση και πότε να διαθέσουν επιπλέον χρόνο και πόρους για να σκεφτούν πριν απαντήσουν. Και το κάνει νέα τεχνολογία Παρουσιάστηκε από ερευνητές στο Meta AI وΠανεπιστήμιο του Ιλινόις στο Σικάγο Με μοντέλα εκπαίδευσης για την κατανομή προϋπολογισμών συμπερασμάτων με βάση τη δυσκολία του ερωτήματος. Αυτό έχει ως αποτέλεσμα ταχύτερες αποκρίσεις, χαμηλότερο κόστος και καλύτερη κατανομή των υπολογιστικών πόρων.
δαπανηρή συλλογιστική
Τα μεγάλα γλωσσικά μοντέλα (LLM) μπορούν να βελτιώσουν την απόδοσή τους σε συλλογιστικές εργασίες όταν παράγουν μεγαλύτερες αλυσίδες σκέψης, συχνά γνωστές ως «αλυσίδες σκέψης» (CoT). Η επιτυχία της τεχνικής της αλυσίδας ιδεών οδήγησε σε μια ολόκληρη σειρά τεχνικών χρονικής κλίμακας συμπερασμάτων που αναγκάζουν το μοντέλο να «σκέφτεται» πιο βαθιά για το πρόβλημα, να δημιουργεί και να εξετάζει πολλαπλές απαντήσεις και να επιλέγει την καλύτερη.
Η πλειοψηφία (MV) είναι μια από τις κύριες μεθόδους που χρησιμοποιούνται στα μοντέλα συλλογιστικής, όπου παράγονται πολλαπλές απαντήσεις και επιλέγεται η πιο συχνά ερωτούμενη απάντηση. Το πρόβλημα με αυτήν την προσέγγιση είναι ότι το μοντέλο υιοθετεί μια ομοιόμορφη συμπεριφορά, αντιμετωπίζοντας κάθε είσοδο ως ένα δύσκολο πρόβλημα συλλογισμού και καταναλώνοντας περιττούς πόρους για τη δημιουργία πολλαπλών απαντήσεων.
Έξυπνη συλλογιστική
Το νέο ερευνητικό έγγραφο προτείνει μια σειρά τεχνικών εκπαίδευσης που κάνουν τα συλλογιστικά μοντέλα πιο αποτελεσματικά στην απόκριση. Το πρώτο βήμα είναι η «διαδοχική ψηφοφορία» (SV), όπου το μοντέλο ματαιώνει τη διαδικασία συλλογισμού μόλις μια συγκεκριμένη απάντηση εμφανιστεί ορισμένες φορές. Για παράδειγμα, ζητείται από τη φόρμα να δημιουργήσει το πολύ οκτώ απαντήσεις και να επιλέξει την απάντηση που εμφανίζεται τουλάχιστον τρεις φορές. Εάν δοθεί στο μοντέλο το απλό ερώτημα παραπάνω, οι τρεις πρώτες απαντήσεις είναι πιθανό να είναι παρόμοιες, οδηγώντας σε πρόωρη διακοπή, εξοικονόμηση χρόνου και υπολογιστικών πόρων.
Τα πειράματά τους δείχνουν ότι το SV υπερτερεί της κλασικής MV σε προβλήματα μαθηματικού ανταγωνισμού όταν παράγει τον ίδιο αριθμό απαντήσεων. Ωστόσο, το SV απαιτεί πρόσθετες οδηγίες και δημιουργία κώδικα, καθιστώντας το στο ίδιο επίπεδο με το MV όσον αφορά την αναλογία κώδικα προς ακρίβεια.

Η δεύτερη τεχνική, η Adaptive Sequential Voting (ASV), βελτιώνει την SV απαιτώντας από το μοντέλο να εξετάσει το πρόβλημα και να δημιουργήσει πολλαπλές απαντήσεις μόνο όταν το πρόβλημα είναι δύσκολο. Για απλά προβλήματα (όπως ένας ισχυρισμός 1+1), το μοντέλο δημιουργεί απλώς μία απάντηση χωρίς να περάσει από τη διαδικασία ψηφοφορίας. Αυτό καθιστά το μοντέλο πιο αποτελεσματικό στον χειρισμό τόσο απλών όσο και πολύπλοκων προβλημάτων.
Ενισχυτική μάθηση
Ενώ και οι δύο τεχνικές SV και ASV βελτιώνουν την αποτελεσματικότητα του μοντέλου, απαιτούν μεγάλο όγκο δεδομένων με μη αυτόματο τρόπο. Για να μετριαστεί αυτό το πρόβλημα, οι ερευνητές προτείνουν τη «βελτιστοποίηση πολιτικής περιορισμένης από τον προϋπολογισμό συμπερασμάτων» (IBPO), έναν αλγόριθμο ενίσχυσης μάθησης που διδάσκει στο μοντέλο να προσαρμόζει το μήκος των διαδρομών συλλογισμού με βάση τη δυσκολία του ερωτήματος.
Το IBPO έχει σχεδιαστεί για να επιτρέπει σε μεγάλα γλωσσικά μοντέλα (LLM) να βελτιώνουν τις απαντήσεις τους, ενώ παραμένουν εντός των περιορισμών του προϋπολογισμού συμπερασμάτων. Ο αλγόριθμος ενίσχυσης εκμάθησης επιτρέπει στο μοντέλο να υπερβεί τα κέρδη που προκύπτουν από την εκπαίδευση σε δεδομένα με χειροκίνητη επισήμανση, δημιουργώντας συνεχώς τροχιές ASV, αξιολογώντας αποκρίσεις και επιλέγοντας αποτελέσματα που παρέχουν τη σωστή απάντηση και τον βέλτιστο προϋπολογισμό συμπερασμάτων.
Τα πειράματά τους δείχνουν ότι το IBPO βελτιώνει το μέτωπο Pareto, πράγμα που σημαίνει ότι για έναν σταθερό προϋπολογισμό συμπερασμάτων, ένα μοντέλο που εκπαιδεύεται στο IBPO υπερέχει από άλλες γραμμές βάσης.
Αυτά τα ευρήματα έρχονται εν μέσω των προειδοποιήσεων των ερευνητών ότι τα τρέχοντα μοντέλα τεχνητής νοημοσύνης δυσκολεύονται. Καθώς οι εταιρείες αγωνίζονται να βρουν δεδομένα εκπαίδευσης υψηλής ποιότητας και να εξερευνήσουν εναλλακτικούς τρόπους βελτίωσης των μοντέλων τους.
Μια πολλά υποσχόμενη λύση είναι η ενισχυτική μάθηση, όπου δίνεται στο μοντέλο ένας στόχος και του επιτρέπεται να βρει τις δικές του λύσεις, σε αντίθεση με την εποπτευόμενη λεπτομέρεια (SFT), όπου το μοντέλο εκπαιδεύεται σε παραδείγματα με σήμανση χειρός.
Παραδόξως, το μοντέλο βρίσκει συχνά λύσεις που οι άνθρωποι δεν είχαν σκεφτεί. Αυτή είναι μια φόρμουλα που φαίνεται να έχει λειτουργήσει με το DeepSeek-R1, το οποίο αμφισβήτησε την κυριαρχία των αμερικανικών εργαστηρίων τεχνητής νοημοσύνης.
Οι ερευνητές σημειώνουν ότι "οι μέθοδοι που βασίζονται στην άμεση και η SFT αγωνίζονται για απόλυτη βελτιστοποίηση και αποτελεσματικότητα, υποστηρίζοντας την εικασία ότι η SFT από μόνη της δεν επιτρέπει δυνατότητες αυτοδιόρθωσης. Αυτή η παρατήρηση υποστηρίζεται επίσης από ταυτόχρονη εργασία, η οποία υποδηλώνει ότι αυτή η συμπεριφορά αυτοδιόρθωσης αναδύεται αυθόρμητα κατά τη διάρκεια του RLT αντί να δημιουργείται χειροκίνητα."