Η Google λανσάρει τα Gemini 2.0 Pro και Flash-Lite, συνδέοντας το Flash Thinking με το YouTube, τους Χάρτες και την Αναζήτηση
Η σειρά μοντέλων μεγάλων γλωσσών Gemini (LLM) της Google ξεκίνησε ένα δύσκολο ξεκίνημα πριν από σχεδόν ένα χρόνο με κάποιες ενοχλητικές εικόνες που δημιουργήθηκαν εσφαλμένα, αλλά έχουν βελτιωθεί σταθερά από τότε και η εταιρεία φαίνεται ότι σκοπεύει να κάνει την προσπάθεια δεύτερης γενιάς - Gemini 2.0 - τη μεγαλύτερη και καλύτερη μέχρι τώρα για καταναλωτές και επιχειρήσεις.
Αλιομ, Ανακοινώθηκε Η εταιρεία ανακοίνωσε τη δημόσια κυκλοφορία του Gemini 2.0 Flash, παρουσίασε το Gemini 2.0 Flash-Lite και κυκλοφόρησε μια beta έκδοση του Gemini 2.0 Pro.

Αυτά τα μοντέλα, σχεδιασμένα για την υποστήριξη προγραμματιστών και επιχειρήσεων, είναι πλέον διαθέσιμα μέσω του Google AI Studio και του Vertex AI, με το Flash-Lite διαθέσιμο σε δημόσια προεπισκόπηση και το Pro διαθέσιμο για πρώιμες δοκιμές.
«Όλα αυτά τα μοντέλα θα διαθέτουν είσοδο πολυμέσων με έξοδο κειμένου κατά την κυκλοφορία τους, με τα μέσα Plus να είναι διαθέσιμα για γενική χρήση τους επόμενους μήνες», έγραψε ο Koray Cavukcioglu, CTO της Google DeepMind, στην ανάρτηση ιστολογίου της εταιρείας, ανακοινώνοντας την ανακοίνωση — δείχνοντας ένα πλεονέκτημα που προσφέρει η Google, ακόμη και όταν ανταγωνιστές όπως... DeepSeek و OpenAI Στην εκτόξευση ισχυρών ανταγωνιστών.
Η Google αξιοποιεί τις δυνατότητες πολυμέσων της
Ούτε το DeepSeek-R1 ούτε Το νέο μοντέλο o3-mini της OpenAI Αποδεχτείτε εισόδους πολυμέσων – π.χ. εικόνες, μεταφορτώσεις αρχείων ή συνημμένα.
Ενώ το μοντέλο R1 μπορεί να τα δεχτεί στον ιστότοπο και την εφαρμογή συνομιλίας για κινητά, χρησιμοποιεί την οπτική αναγνώριση χαρακτήρων (OCR), μια τεχνολογία που είναι πάνω από 60 ετών, για να εξάγει μόνο το κείμενο από αυτές τις μεταφορτώσεις – και δεν κατανοεί ή αναλύει καμία από τις άλλες λειτουργίες σε αυτές.
Ωστόσο, και τα δύο αντιπροσωπεύουν μια νέα κατηγορία μοντέλων «σκέψης» που σκόπιμα χρειάζονται περισσότερο χρόνο για να σκεφτούν τις απαντήσεις και να προβληματιστούν σχετικά με τις «αλυσίδες σκέψης» και την εγκυρότητα των απαντήσεών τους. Αυτό έρχεται σε αντίθεση με τα τυπικά μοντέλα μεγάλων γλωσσών όπως η σειρά Gemini 2.0 pro, επομένως η σύγκριση του Gemini 2.0 με το DeepSeek-R1 και το OpenAI o3 είναι σαν να συγκρίνετε τα μήλα με τα πορτοκάλια.
Αλλά υπήρξαν κάποια νέα από την πλευρά της Google σήμερα επίσης: ο CEO της Google, Sundar Pichai, ανακοίνωσε μέσω X πλατφόρμα Σχετικά με την ενημέρωση της εφαρμογής Google Gemini Για κινητά τηλέφωνα iOS και Android με Gemini 2.0 Flash Thinking. Το μοντέλο μπορεί να συνδεθεί με τους Χάρτες Google, το YouTube και την Αναζήτηση Google, επιτρέποντας ένα εντελώς νέο σύνολο αναζητήσεων και αλληλεπιδράσεων που βασίζονται σε τεχνητή νοημοσύνη, τις οποίες οι νέοι ανταγωνιστές του χωρίς αυτές τις υπηρεσίες, όπως το DeepSeek και το OpenAI, δεν μπορούν να ταιριάξουν.
Το δοκίμασα για λίγο στην εφαρμογή Google Gemini iOS στο iPhone μου ενώ έγραφα αυτό το άρθρο και ήταν εντυπωσιακό με βάση τις αρχικές μου έρευνες, βρήκα ομοιότητες μεταξύ των κορυφαίων 10 βίντεο YouTube με τις περισσότερες προβολές του περασμένου μήνα και έδωσα μια λίστα με τα κοντινά ιατρεία και τις ώρες λειτουργίας/κλεισίματός τους, όλα μέσα σε δευτερόλεπτα.

Δημόσια κυκλοφορία Gemini 2.0 Flash
Το μοντέλο Gemini 2.0 Flash, που κυκλοφόρησε αρχικά ως έκδοση beta, έγινε Τον Δεκέμβριο, έτοιμο για παραγωγή τώρα.
Σχεδιασμένο για εξαιρετικά αποδοτικές εφαρμογές τεχνητής νοημοσύνης, παρέχει αποκρίσεις χαμηλής καθυστέρησης και υποστηρίζει πολυτροπική συλλογιστική μεγάλης κλίμακας.
Ένα από τα βασικά πλεονεκτήματά του σε σχέση με τον ανταγωνισμό είναι το παράθυρο περιβάλλοντος ή ο αριθμός των διακριτικών που μπορεί να προσθέσει ένας χρήστης ως κίνητρο και να λάβει πίσω σε μια ενιαία αλληλεπίδραση εμπρός και πίσω με ένα chatbot ή API που υποστηρίζεται από LLM.
Ενώ πολλά κορυφαία μοντέλα, όπως το νέο o3-mini του OpenAI που έκανε το ντεμπούτο του την περασμένη εβδομάδα, υποστηρίζουν 200000 μάρκες ή λιγότερα —το ισοδύναμο ενός μυθιστορήματος 400 έως 500 σελίδων— το Gemini 2.0 Flash υποστηρίζει XNUMX εκατομμύριο μάρκες, που σημαίνει ότι μπορεί να χειριστεί τεράστιες ποσότητες πληροφοριών, καθιστώντας το ιδιαίτερα χρήσιμο για εργασίες υψηλής συχνότητας και μεγάλης κλίμακας.
Gemini 2.0 Flash-Lite: Λύσεις τεχνητής νοημοσύνης χαμηλού κόστους
Το Gemini 2.0 Flash-Lite είναι ένα ολοκαίνουργιο μοντέλο μεγάλης γλώσσας που στοχεύει στην παροχή οικονομικών λύσεων τεχνητής νοημοσύνης χωρίς συμβιβασμούς στην ποιότητα.
Το Google DeepMind αναφέρει ότι το Flash-Lite ξεπερνά τον προκάτοχό του πλήρους μεγέθους (περισσότερο παραμετροποιημένο), το Gemini 1.5 Flash, σε εξωτερικά σημεία αναφοράς όπως το MMLU Pro (77.6% έναντι 67.3%) και το Bird SQL (57.4% έναντι 45.6%), ενώ διατηρεί την ίδια τιμολόγηση και ταχύτητα.
Υποστηρίζει επίσης είσοδο πολυμέσων και διαθέτει ένα παράθυρο περιβάλλοντος 1 εκατομμυρίου διακριτικών, παρόμοιο με το πλήρες μοντέλο Flash.
Το Flash-Lite είναι προς το παρόν διαθέσιμο σε δημόσια προεπισκόπηση μέσω του Google AI Studio και του Vertex AI, με τη γενική διαθεσιμότητα να αναμένεται τις επόμενες εβδομάδες.
Όπως φαίνεται στον παρακάτω πίνακα, το Gemini 2.0 Flash-Lite κοστίζει 0.075 $ ανά εκατομμύριο μάρκες (εισαγωγή) και 0.30 $ ανά εκατομμύριο μάρκες (έξοδος). Το Flash-Lite είναι μια πολύ προσιτή επιλογή για προγραμματιστές, έχοντας καλύτερη απόδοση από το Gemini 1.5 Flash στα περισσότερα σημεία αναφοράς, διατηρώντας παράλληλα την ίδια δομή κόστους.

Ο Logan Kilpatrick τόνισε το κόστος και την αξία των μοντέλων Gemini 2.0 Flash, καθώς Αρσενικό σε πλατφόρμα Χ"Το Gemini 2.0 Flash είναι η καλύτερη αξία οποιουδήποτε μοντέλου LLM, ήρθε η ώρα να το φτιάξετε!"
Μάλιστα, σε σύγκριση με άλλα κορυφαία παραδοσιακά μοντέλα LLM που διατίθενται μέσω του API του παρόχου, όπως π.χ OpenAI 4o-mini (0.15$/0.6$ ανά εκατομμύριο διακριτικά εισόδου/εξόδου) και Anthropic Claude (0.8$/4$! ανά εκατομμύριο διακριτικά εισόδου/εξόδου) και ακόμη και το παραδοσιακό LLM V3 του DeepSeek (0.14$/0.28$), το Gemini 2.0 Flash φαίνεται να είναι η καλύτερη σχέση ποιότητας-τιμής.
Το Gemini 2.0 Pro Beta φτάνει με 2 εκατομμύρια εικονίδια στο παράθυρο περιβάλλοντος
Το μοντέλο Gemini 2.0 Pro (beta) είναι πλέον διαθέσιμο για δοκιμή, για χρήστες που χρειάζονται πιο προηγμένες δυνατότητες AI.
Το Google DeepMind περιγράφει αυτό το μοντέλο ως το πιο ισχυρό μοντέλο για την απόδοση προγραμματισμού και την ικανότητα χειρισμού περίπλοκων προτροπών. Διαθέτει παράθυρο περιβάλλοντος 2 εκατομμυρίων χαρακτήρων και βελτιωμένες δυνατότητες συλλογιστικής, με δυνατότητα ενσωμάτωσης εξωτερικών εργαλείων όπως η Αναζήτηση Google και η εκτέλεση κώδικα.
Ο Sam Witteveen, συνιδρυτής και Διευθύνων Σύμβουλος της Red Dragon AI και εξωτερικός ειδικός ανάπτυξης μηχανικής μάθησης στην Google, ο οποίος συχνά συνεργάζεται με την VentureBeat, συζήτησε: Επαγγελματικό μοντέλο σε κριτική στο YouTube. «Το νέο μοντέλο Gemini 2.0 Pro έχει ένα παράθυρο περιβάλλοντος με 1.5 εκατομμύρια εικονίδια, υποστηρίζει γραφικά στοιχεία, εκτέλεση κώδικα, κλήσεις λειτουργιών και ενσωμάτωση με την Αναζήτηση Google — όλα όσα είχαμε στο Pro XNUMX, αλλά βελτιωμένα».
Επεσήμανε επίσης την επαναληπτική προσέγγιση της Google για την ανάπτυξη της τεχνητής νοημοσύνης: «Μια βασική διαφορά στη στρατηγική της Google είναι ότι κυκλοφορεί beta εκδόσεις μοντέλων πριν γίνουν γενικά διαθέσιμα (GA), επιτρέποντας ταχεία επανάληψη με βάση τα σχόλια».
Τα σημεία αναφοράς επιδόσεων καταδεικνύουν περαιτέρω τις δυνατότητες της οικογένειας μοντέλων Gemini 2.0. Για παράδειγμα, το Gemini 2.0 Pro έχει καλύτερη απόδοση από το Flash και το Flash-Lite σε εργασίες όπως η συλλογιστική, η πολυγλωσσική κατανόηση και η επεξεργασία μεγάλου περιεχομένου.
Ασφάλεια AI και μελλοντικές εξελίξεις
Μαζί με αυτές τις ενημερώσεις, το Google DeepMind εφαρμόζει νέα μέτρα ασφάλειας και ασφάλειας για τα μοντέλα Gemini 2.0. Η εταιρεία αξιοποιεί τεχνικές ενισχυτικής μάθησης για να βελτιώσει την ακρίβεια απόκρισης, χρησιμοποιώντας τεχνητή νοημοσύνη για να ασκήσει κριτική και να βελτιώσει τα αποτελέσματά της. Επιπλέον, οι αυτοματοποιημένες δοκιμές ασφαλείας χρησιμοποιούνται για τον εντοπισμό τρωτών σημείων, συμπεριλαμβανομένων των έμμεσων απειλών έγχυσης αξιώσεων.
Κοιτάζοντας το μέλλον, το Google DeepMind σχεδιάζει να επεκτείνει τις δυνατότητες της οικογένειας μοντέλων Gemini 2.0, με πρόσθετες μεθόδους πέρα από το κείμενο που αναμένεται να γίνουν γενικά διαθέσιμες τους επόμενους μήνες.
Με αυτές τις ενημερώσεις, η Google ενισχύει την ώθησή της στην ανάπτυξη τεχνητής νοημοσύνης, εισάγοντας μια σειρά μοντέλων σχεδιασμένων για αποτελεσματικότητα, οικονομική προσιτότητα και προηγμένη επίλυση προβλημάτων, ανταποκρινόμενη στην άνοδο του DeepSeek με τη δική της σειρά μοντέλων που κυμαίνονται από ισχυρά έως πολύ ισχυρά και πολύ προσιτά έως ελαφρώς φθηνότερα (αλλά ακόμα οικονομικά).
Θα είναι αυτό αρκετό για να βοηθήσει την Google να εισχωρήσει στην αγορά της επιχειρηματικής τεχνητής νοημοσύνης, στην οποία κυριαρχούσε στο παρελθόν το OpenAI και τώρα κυριαρχείται από το DeepSeek; Θα συνεχίσουμε να παρακολουθούμε και θα σας ενημερώνουμε!
Αν θέλετε να εντυπωσιάσετε το αφεντικό σας, η VB Daily θα σας βοηθήσει. Σας δίνουμε πληροφορίες σχετικά με το τι κάνουν οι εταιρείες με τη δημιουργία τεχνητής νοημοσύνης, από οργανωτικούς μετασχηματισμούς έως πρακτικές αναπτύξεις, ώστε να μπορείτε να μοιραστείτε πληροφορίες για να μεγιστοποιήσετε την απόδοση της επένδυσής σας.
Ασφάλεια AI και μελλοντικές εξελίξεις