Το OpenAI ανταποκρίνεται στον ανταγωνισμό DeepSeek με λεπτομερή τεχνολογία παρακολούθησης σκέψης για το o3-mini
Η OpenAI αποκαλύπτει τώρα περισσότερες λεπτομέρειες σχετικά με τη διαδικασία συλλογισμού του τελευταίου μοντέλου σκέψης της, o3-mini. Αυτή η αλλαγή ανακοινώθηκε στις Ο λογαριασμός του OpenAI στην πλατφόρμα XΑυτό έρχεται καθώς το εργαστήριο AI αντιμετωπίζει αυξανόμενη πίεση από το DeepSeek-R1, ένα ανταγωνιστικό μοντέλο ανοιχτού κώδικα που εμφανίζει πλήρως τον κώδικα σκέψης του.

Μοντέλα όπως το o3 και το R1 υποβάλλονται σε μια μακρά διαδικασία "αλυσίδας ιδεών" (CoT) όπου δημιουργείτε πρόσθετους κωδικούς για να αναλύσετε το πρόβλημα, να σκεφτείτε και να δοκιμάσετε διαφορετικές απαντήσεις και να φτάσετε σε μια τελική λύση. Προηγουμένως, τα συλλογιστικά μοντέλα του OpenAI έκρυβαν τη διαδικασία σκέψης τους και παρείχαν μόνο μια επισκόπηση υψηλού επιπέδου των βημάτων συλλογισμού. Αυτό κατέστησε δύσκολο για τους χρήστες και τους προγραμματιστές να κατανοήσουν το σκεπτικό του μοντέλου και να αλλάξουν τις οδηγίες και τις προτροπές τους για να το κατευθύνουν προς τη σωστή κατεύθυνση.
Η OpenAI θεώρησε τη γραμμή ιδεών ανταγωνιστικό πλεονέκτημα και την απέκρυψε για να εμποδίσει τους ανταγωνιστές να την αντιγράψουν για να εκπαιδεύσουν τα μοντέλα τους. Αλλά καθώς το R1 και άλλα μοντέλα ανοιχτού κώδικα επιδεικνύουν την πλήρη διαδικασία συλλογιστικής, η έλλειψη διαφάνειας έχει γίνει ένα μειονέκτημα για το OpenAI.
Το νέο o3-mini δείχνει μια πιο λεπτομερή έκδοση της σειράς Ideas. Αν και εξακολουθούμε να μην βλέπουμε τα αρχικά σύμβολα, παρέχουν μεγαλύτερη σαφήνεια σχετικά με τη διαδικασία σκέψης.
Γιατί είναι αυτό σημαντικό για εφαρμογές;
Στα προηγούμενα πειράματά μας με τα μοντέλα O1 και R1, διαπιστώσαμε ότι το O1 ήταν ελαφρώς καλύτερο στην επίλυση προβλημάτων ανάλυσης δεδομένων και συλλογισμού. Ωστόσο, ένας σημαντικός περιορισμός ήταν ότι δεν υπήρχε τρόπος να γνωρίζουμε γιατί το μοντέλο έκανε λάθη – και συχνά έκανε λάθη όταν αντιμετώπιζε ακατάστατα δεδομένα του πραγματικού κόσμου που προέρχονται από τον Ιστό. Από την άλλη πλευρά, η διαδικασία σκέψης R1 μας επέτρεψε να αντιμετωπίσουμε προβλήματα και να αλλάξουμε τις προτροπές μας για να βελτιώσουμε τη σκέψη.
Για παράδειγμα, σε ένα από τα πειράματά μας, και τα δύο μοντέλα απέτυχαν να δώσουν τη σωστή απάντηση. Αλλά χάρη στις λεπτομερείς πληροφορίες του R1, μπορέσαμε να ανακαλύψουμε ότι το πρόβλημα δεν ήταν στο ίδιο το μοντέλο αλλά στο στάδιο ανάκτησης που συγκέντρωνε πληροφορίες από τον Ιστό. Σε άλλα πειράματα, η ομάδα σκέψης της R1 μπόρεσε να μας δώσει υποδείξεις όταν απέτυχε να αναλύσει τις πληροφορίες που της δώσαμε, ενώ η O1 μας έδωσε μια πολύ πρόχειρη επισκόπηση του πώς θα μπορούσε να διατυπώσει την απάντησή της.
Δοκιμάσαμε το νέο μοντέλο o3-mini σε μια παραλλαγή ενός προηγούμενου πειράματος που κάναμε με το o1. Παρέχαμε στο μοντέλο ένα αρχείο κειμένου που περιέχει διάφορες τιμές μετοχών από τον Ιανουάριο του 2024 έως τον Ιανουάριο του 2025. Το αρχείο ήταν ακατάστατο και χωρίς μορφοποίηση, ένας συνδυασμός απλού κειμένου και στοιχείων HTML. Στη συνέχεια, ζητήσαμε από το μοντέλο να υπολογίσει την αξία ενός χαρτοφυλακίου που είχε επενδύσει 140 $ σε μετοχές Magnificent 7 την πρώτη ημέρα κάθε μήνα από τον Ιανουάριο του 2024 έως τον Ιανουάριο του 2025, κατανεμημένη ομοιόμορφα σε όλες τις μετοχές (χρησιμοποιήσαμε τον όρο "Magnificent 7" στην προτροπή για να το κάνουμε πιο δύσκολο).
Η σειρά ιδεών o3-mini ήταν πραγματικά χρήσιμη αυτή τη φορά. Πρώτα, το μοντέλο σκέφτηκε τι ήταν το Mag 7, φιλτράρει τα δεδομένα για να διατηρήσει μόνο σχετικές μετοχές (για να δυσκολέψει το πρόβλημα, προσθέσαμε μερικές μετοχές εκτός Mag 7 στα δεδομένα), υπολόγισε το μηνιαίο ποσό για επένδυση σε κάθε μετοχή και έκανε τους τελικούς υπολογισμούς για να δώσει τη σωστή απάντηση (το χαρτοφυλάκιο θα άξιζε περίπου $2200 την τελευταία καταγεγραμμένη στιγμή στο μοντέλο που καταγράψαμε).

Θα χρειαστούν περισσότερες δοκιμές για να προσδιοριστούν τα όρια του νέου αλγορίθμου, καθώς το OpenAI εξακολουθεί να κρατά πολλές λεπτομέρειες μυστικές. Αλλά στις αρχικές μας δοκιμές, η νέα μορφή φαίνεται πιο χρήσιμη.
Τι σημαίνει αυτό για το OpenAI;
Όταν κυκλοφόρησε το DeepSeek-R1, είχε τρία σαφή πλεονεκτήματα σε σχέση με τα μοντέλα συλλογιστικής του OpenAI: ήταν ανοιχτού κώδικα, χαμηλού κόστους και διαφανές.
Από τότε, το OpenAI μπόρεσε να καλύψει το χάσμα. Ενώ το o1 κοστίζει 60 $ ανά εκατομμύριο μάρκες που εξορύσσονται, το o3-mini κοστίζει μόνο 4.40 $, ξεπερνώντας το o1 σε πολλά σημεία αναφοράς. Το R1 κοστίζει περίπου 7 έως 8 $ ανά εκατομμύριο μάρκες που εκδίδονται σε παρόχους ΗΠΑ. (Το DeepSeek προσφέρει το μοντέλο R1 με 2.19 $ ανά εκατομμύριο διακριτικά που εξορύσσονται στους δικούς του διακομιστές, αλλά πολλοί οργανισμοί δεν θα μπορούν να το χρησιμοποιήσουν επειδή φιλοξενείται στην Κίνα.)
Με τη νέα αλλαγή στα αποτελέσματα CoT, το OpenAI μπόρεσε να ξεπεράσει το ζήτημα της διαφάνειας σε κάποιο βαθμό.
Μένει να δούμε τι θα κάνει το OpenAI για να κάνει τα μοντέλα του ανοιχτού κώδικα. Από την κυκλοφορία του, το R1 έχει ήδη προσαρμοστεί, διακλαδωθεί και φιλοξενηθεί από πολλά διαφορετικά εργαστήρια και εταιρείες, καθιστώντας το δυνητικά το προτιμώμενο μοντέλο σκέψης για τις επιχειρήσεις. Ο CEO του OpenAI, Sam Altman, παραδέχτηκε πρόσφατα ότι βρισκόταν «στη λάθος πλευρά της ιστορίας» στη συζήτηση ανοιχτού κώδικα. Θα πρέπει να δούμε πώς θα εκδηλωθεί αυτή η συνειδητοποίηση σε μελλοντικές εκδόσεις OpenAI.