Δοκίμασα τη νέα δυνατότητα δημιουργίας εγγενών εικόνων του Gemini και είναι απολύτως εκπληκτικό.
Περίληψη:
- Η Google ξεκίνησε τη δημιουργία και επεξεργασία εγγενών εικόνων χρησιμοποιώντας τη νέα έκδοση Gemini 2.0 Flash beta.
- Η λειτουργία είναι διαθέσιμη δωρεάν στο AI Studio τώρα και μπορείτε να δημιουργήσετε και να επεξεργαστείτε μια σειρά συντονισμένων εικόνων χρησιμοποιώντας απλές εντολές κειμένου.
- Μπορείτε να αφαιρέσετε και να προσθέσετε στοιχεία, να εισαγάγετε κείμενο, να χρωματίσετε εικόνες, να δημιουργήσετε μια οπτική ιστορία και πολλά άλλα.
Ακούμε τον όρο "natively multimodal" στην τεχνητή νοημοσύνη για περισσότερο από ένα χρόνο, αλλά οι εταιρείες άργησαν να απελευθερώσουν το πλήρες δυναμικό πολυτροπικών των μοντέλων τεχνητής νοημοσύνης τους μέχρι τώρα. Η Google κυκλοφόρησε επιτέλους το τελευταίο πρωτότυπο της, το «Gemini 2.0 Flash Experimental», με… Δυνατότητα δημιουργίας και επεξεργασίας πρωτότυπων εικόνωνΓεια σου.
Τώρα, ίσως αναρωτιέστε, ποια είναι η σημασία της δημιουργίας εικόνων; Η δημιουργία εικόνων AI είναι διαθέσιμη με όλα τα μεγάλα chatbot AI όπως το ChatGPT εδώ και αρκετό καιρό. Λοιπόν, όταν δημιουργούμε εικόνες AI στο ChatGPT ή στο Gemini, κατευθύνεται σε ένα εξειδικευμένο μοντέλο που βασίζεται στη διάχυση, όπως το Dall-E 3 ή το Imagen 3. Αυτά τα μοντέλα εκπαιδεύονται σε εικόνες και έχουν σχεδιαστεί μόνο για τη δημιουργία εικόνων. Είναι μια επέκταση του κύριου μοντέλου AI, όχι μέρος του.
Ωστόσο, μοντέλα γλωσσικής όρασης όπως π.χ Gemini Εγγενώς πολυμέσα, που σημαίνει ότι μπορεί να κατανοήσει, να δημιουργήσει και να τροποποιήσει εγγενώς τόσο κείμενο όσο και εικόνες. Μέχρι στιγμής, καμία εταιρεία τεχνολογίας δεν έχει διαθέσει αυτή τη δυνατότητα στους χρήστες. Το OpenAI έδειξε τη δυνατότητα δημιουργίας εγγενών εικόνων με το GPT-4o το 2024, αλλά και πάλι, δεν κυκλοφόρησε ποτέ.
Με την αρχική δυνατότητα δημιουργίας εικόνας, θα λάβετε: Καλύτερος συντονισμός Όπου τα πολυτροπικά μοντέλα εκπαιδεύονται σε ένα τεράστιο σύνολο δεδομένων διαφορετικών μέσων. Ως αποτέλεσμα, αυτά τα μοντέλα έχουν καλύτερη κατανόηση των εννοιών και επιδεικνύουν μια ευρύτερη γνώση του κόσμου.
Εκτός από τη δημιουργία εικόνων, μπορείτε να επεξεργάζεστε απρόσκοπτα εικόνες χρησιμοποιώντας απλές εντολές κειμένου. Για παράδειγμα, μπορείτε να ανεβάσετε μια εικόνα και να ζητήσετε από το μοντέλο να προσθέσει γυαλιά ηλίου, να εισαγάγει έντονο κείμενο, να αφαιρέσει αντικείμενα και πολλά άλλα στην εικόνα. Σε αντίθεση με τα μοντέλα διάχυσης που αναγεννούν ολόκληρη την εικόνα με κάθε νέα εντολή, τα εγγενή μοντέλα πολυμέσων διατηρούν συνέπεια σε πολλαπλές επεξεργασίες.
Δημιουργήστε εικόνες χρησιμοποιώντας την επίδειξη του Gemini 2.0 Flash
Προς το παρόν, η αρχική λειτουργία δημιουργίας εικόνας δεν είναι διαθέσιμη σε δημόσιους χρήστες. Η επίδειξη του Gemini 2.0 Flash με τη δημιουργία εγγενών εικόνων είναι διαθέσιμη μόνο στην πλατφόρμα AI Studio της Google (Πολλα) δωρεάν.
Μετά την προεπισκόπηση του μοντέλου στο AI Studio, θα κυκλοφορήσει στο Gemini για χρήση από όλους στο εγγύς μέλλον. Ωστόσο, δοκίμασα το νέο μοντέλο Gemini με τη δυνατότητα δημιουργίας εικόνας και ήταν μια πολύ συναρπαστική εμπειρία.
Αρχικά, ξεκίνησα με έναν οπτικό οδηγό για να δείξω τη συνέπεια της ικανότητας δημιουργίας εικόνας του Gemini. Ζήτησα από τον Δίδυμο να δημιουργήσει έναν οπτικό οδηγό για το πώς να φτιάξετε μια ομελέτα, δημιουργώντας μια φωτογραφία για κάθε βήμα της διαδικασίας.
Όπως μπορείτε να δείτε, τα αποτελέσματα είναι πολύ συνεπή σε όλες τις εικόνες χωρίς σφάλματα. Ακόμα και το μπολ είναι το ίδιο όπως στη δεύτερη εικόνα. Τέλος, μπορείτε να κατεβάσετε εικόνες σε ανάλυση 1024 x 680. Με αυτόν τον τρόπο, μπορείτε να δημιουργήσετε έναν οπτικό οδηγό για οτιδήποτε θέλετε.
Στη συνέχεια, ζήτησα από τον Δίδυμο να δημιουργήσει μια αισθητική εικόνα τραπεζιού και, στη συνέχεια, του ζήτησα να δει το τραπέζι από την κεντρική γωνία της κάμερας. Έκανε τέλεια δουλειά. Στη συνέχεια, ζήτησα από τον Gemini να προσθέσει ένα PlayStation στο τραπέζι και να ρίξει μια πιο προσεκτική ματιά. Για άλλη μια φορά ο Δίδυμος το κάρφωσε. Όπως μπορείτε να δείτε παρακάτω, το μοντέλο AI περιλάμβανε επίσης μια αντανάκλαση του PS5 στον καθρέφτη πίσω από αυτό.
Για να δείξω την αρχική επεξεργασία φωτογραφίας, ανέβασα μια φωτογραφία από τη συλλογή μου και ζήτησα από το Gemini 2.0 να αφαιρέσει το ποτήρι του κρασιού από το τραπέζι. Στη συνέχεια, ζήτησα από τον Δίδυμο να προσθέσει μανιτάρια στην πίτσα και έκανε εξαιρετική δουλειά. Στη συνέχεια, ζήτησα από τον Gemini να προσθέσει ένα κρουασάν, και να το έχετε, επεξεργασία φωτογραφιών AI με όλες τις δυνατότητες, χάρη στις δυνατότητες πολυμέσων του Gemini.
Στη συνέχεια, ανέβασα μια φωτογραφία μου, ζήτησα από τον Δίδυμο να προσθέσει γυαλιά ηλίου και μετά πρόσθεσα το κείμενο «Beebom» στο πουκάμισό μου. Και οι δύο εκτελέστηκαν πολύ καλά.
Τέλος, ζήτησα από τον Δίδυμο να χρωματίσει μια εικόνα, και έκανε καλά και σε αυτό. Θέλω να πω, η εικόνα είναι πιο όμορφη από πριν, χωρίς περίεργα σφάλματα, παραμορφώσεις ή να λείπει κανένα μέρος της εικόνας.

Υπάρχουν πολλές περιπτώσεις χρήσης που μπορείτε να ζήσετε με τις νέες δυνατότητες πολυμέσων του Gemini. Η Google έχει κάνει εξαιρετική δουλειά με τη δημιουργία και την επεξεργασία εγγενών εικόνων και σκοπεύω να τη χρησιμοποιήσω πιο διεξοδικά τις επόμενες εβδομάδες για να δοκιμάσω τα όριά της.
Μετά την κυκλοφορία του Veo 2 για δημιουργία βίντεο και του Imagen 3 για τη δημιουργία εξειδικευμένων εικόνων, η Google φαίνεται να έχει ξεπεράσει το OpenAI σε πολλούς τομείς. Όχι μόνο στον τομέα της δημιουργίας κειμένου AI. Έτσι, θα είναι ενδιαφέρον να δούμε τι κάνει το OpenAI για να ανακτήσει το προβάδισμα με το ChatGPT.