Δείτε μόνοι σας: Οι νέες δυνατότητες δημιουργίας εικόνων του ChatGPT είναι εκπληκτικές
Το OpenAI κυκλοφόρησε μια τεράστια ενημέρωση για τις δυνατότητες δημιουργίας εικόνων του ChatGPT, μια εντυπωσιακή ενημέρωση που επαναπροσδιορίζει την πραγματικότητα. Αυτή η εξέλιξη αντιπροσωπεύει ένα ποιοτικό άλμα στον τομέα της δημιουργίας εικόνων τεχνητής νοημοσύνης.
Δεν θα χάσω τον χρόνο σας με αριθμούς, μεγέθη μοντέλων ή πόσες ώρες GPU χρησιμοποιεί το νέο μοντέλο. Θα σας δείξω απλώς τι μπορεί να κάνει αυτή η ενημέρωση και πώς συγκρίνεται με το προηγούμενο μοντέλο DALL-E.

7. χέρια και δάχτυλα
Κοντινό πλάνο ενός ατόμου που παίζει μια μινόρε συγχορδία σε μια κιθάρα, τα δάχτυλα πιέζουν τις χορδές με ρηχό βάθος πεδίου.
Η τεχνολογία δημιουργίας εικόνων AI μας εξέπληξε όταν έγινε δημοφιλής για πρώτη φορά. Μετά... κοιτάξαμε προσεκτικά. Το χαρακτηριστικό γνώρισμα της εικόνας AI είναι η περίεργη ανατομία του χεριού και των δακτύλων. Λοιπόν, ποιος καλύτερος τρόπος για να δοκιμάσετε μοντέλα από το να τους ζητήσετε να φωτογραφίσουν μια χορδή κιθάρας;
Για να κρατήσω το καλύτερο για το τέλος, ζήτησα πρώτα το αρχικό μοντέλο DALL-E και μετά τη νέα γεννήτρια εικόνας που είναι ενσωματωμένη στο μοντέλο ChatGPT 4o.

Η παραπάνω εικόνα είναι αυτό που έβγαλε το DALL-E. Παρά τα ελαττώματα του DALL-E, χειρίστηκε αξιοπρεπώς τα δάχτυλα και τη γενική ανατομία εδώ. Αλλά η ίδια η χορδή...δεν είναι. Η θέση του χεριού είναι πολύ ψηλά στο ταστιχάκι για να παίξετε Μι μινόρε. Αν κάνετε λίγο ζουμ, θα παρατηρήσετε ότι η κιθάρα έχει περισσότερες από επτά χορδές. Η απόσταση μεταξύ των χορδών είναι επίσης ακανόνιστη.
Έχοντας αυτό κατά νου, ας προχωρήσουμε στο ChatGPT 4o.

Θα μπορούσα να σου πω ότι αστειεύομαι και ότι αυτή ήταν μια παλιά φωτογραφία από τότε που έπαιζα κιθάρα. Το ChatGPT 4o είναι τόσο καλό. Έξι χορδές, σε ίσες αποστάσεις, και η συγχορδία είναι στην πραγματικότητα σε ελάσσονα. Είμαι εντυπωσιασμένος.
6. ιστορικά πρόσωπα
Ο Άλμπερτ Αϊνστάιν τρώει παγωτό στο Central Park, φορώντας ένα casual πουκάμισο και τιράντες.
Αφού πειραματιστήκαμε με τη δημιουργία εικόνων διαφορετικών πραγμάτων, αποφασίσαμε τώρα να δοκιμάσουμε να δημιουργήσουμε εικόνες ιστορικών προσώπων, και επειδή δεν θα προσβάλλονταν, θα ήταν διασκεδαστικό να τις δούμε σε ένα μοντέρνο περιβάλλον. Ας ξεκινήσουμε δοκιμάζοντας το DALL-E 2 και το ChatGPT 4 να δημιουργήσουν μια εικόνα του Αϊνστάιν.

Το αποτέλεσμα του DALL-E 2 ήταν απογοητευτικό, καθώς με είχε προειδοποιήσει εκ των προτέρων ότι δεν μπορούσε να χρησιμοποιήσει μια φωτογραφία του ίδιου του Αϊνστάιν και ότι θα χρησιμοποιούσε μια φωτογραφία κάποιου που «του έμοιαζε πολύ». Τα γραφικά του DALL-E 2 έχουν ένα ρεαλιστικό καρτουνίστικο στυλ, το οποίο είναι ξεκάθαρο εδώ. Το κτίριο του Σαν Ρέμο στο βάθος υποδηλώνει ότι αυτή η φωτογραφία τραβήχτηκε στο Central Park, αλλά αυτό είναι το μόνο επίτευγμα εδώ.
Τώρα ας προχωρήσουμε στο ChatGPT 4o.

Εφαρμόζοντας ένα ασπρόμαυρο φίλτρο σε αυτή τη φωτογραφία, μπορώ να σας πείσω ότι είναι μια πραγματική vintage φωτογραφία. Η κρέμα στο χωνάκι φαίνεται τέλεια κρεμώδης, ο Αϊνστάιν εμφανίζεται με το χαρακτηριστικό ήρεμο στυλ του και το κτίριο του Σαν Ρέμο εξακολουθεί να υπάρχει στο βάθος. Όλα φαίνονται τέλεια. Το ChatGPT 4o έκανε εξαιρετική δουλειά σε αυτήν την εικόνα.
5. φανταστικούς χαρακτήρες
Μια φιγούρα που μοιάζει με τον Λόρδο Σιθ χαιρετίζει ένα ταξί στην πλατεία Τζορτζ της Γλασκώβης, με ελαφριά βροχή και φανάρια στο βάθος.
Μέχρι στιγμής, έχουμε δει ότι το ChatGPT είναι επιδέξιο στη σχεδίαση ιστορικών μορφών. Δεδομένου ότι τα πρόσωπα και οι άνθρωποι εξακολουθούν να είναι οι καλύτεροι τρόποι για να δοκιμάσετε τις δυνατότητες της Τεχνητής Νοημοσύνης, ας δοκιμάσουμε το Plus.

Χρησιμοποίησα τη λέξη "παρόμοιο" για να κάνω το chatbot να συνεργαστεί μαζί μου χωρίς να αντιμετωπίσω αξίωση πνευματικών δικαιωμάτων. Το αποτέλεσμα DALL-E ήταν καλό. Ο χαρακτήρας σας θυμίζει πραγματικά έναν Άρχοντα Σιθ και τα υπόλοιπα στοιχεία είναι αρκετά ακριβή.
Δεν υπάρχει τίποτα φανερά καρτουνίστικο σε αυτό, αλλά δεν φαίνεται αληθινό. Θέλετε ρεαλισμό; Δείτε τι παρήγαγε το ChatGPT 4o με την ίδια προτροπή:

Λατρεύω την ατμόσφαιρα - τον φωτισμό, την ομίχλη και τη ζοφερή παρουσία του Sith Lord. Όλα είναι εκεί. Το μόνο πρόβλημα είναι ότι ο Σκοτεινός Άρχοντας στέκεται στο δρόμο, καλεί ένα ταξί ενώ βλέπει… το πεζοδρόμιο. Επίσης, η πινακίδα του ταξί λέει «TAXL».
Ας περάσουμε από τη μελλοντική μυθοπλασία στην ιστορική μυθοπλασία. Κάτι σαν αυτό:
Ένας χαρακτήρας που μοιάζει με τον Geralt of Rivia ψωνίζει παντοπωλεία σε ένα μοντέρνο σούπερ μάρκετ, σπρώχνει ένα καλάθι αγορών και συνοφρυώνεται τα κονσερβοποιημένα προϊόντα.

Καθόλου άσχημα. Η εικόνα εξακολουθεί να έχει αυτή την τεχνητή γελοιογραφία και το κείμενο στα κουτιά των δημητριακών είναι, όπως ήταν αναμενόμενο, εντελώς ακατανόητο.
Το ChatGPT 4o αρχικά απέρριψε την αξίωση λόγω πνευματικών δικαιωμάτων — αλλά πέτυχε μόλις αντικατέστησα το "similar to" με το "similar to". Ματιά:

Είμαι άφωνος. Όπως οι περισσότεροι άνθρωποι, η ερμηνεία του Geralt από το ChatGPT είναι βασικά ο Henry Cavill, όχι η έκδοση του βιντεοπαιχνιδιού – αλλά το κατάφερε. Το συνοφρύωμα είναι επιτόπου και η σκηνή φαίνεται φυσιολογική.
Αυτό θα μπορούσε να περάσει ως σκηνή από ένα περίεργο διαφημιστικό σετ. Και ναι, έχω διαβάσει βιβλία. The Witcher Πριν γίνει σειρά.
4. κινουμένων σχεδίων
Ένα καρτούν ενός πειρατή καπετάνιου που φορά ένα μακρύ κόκκινο παλτό και ένα βιονικό μπράτσο, που γελάει στο κατάστρωμα ενός ιπτάμενου πλοίου. Διαφανές φόντο.
Η δημιουργία εικόνων του OpenAI δεν αφορά μόνο τον ρεαλισμό. Ενώ το DALL-E τείνει πάντα να προσθέτει μια νότα εξομάλυνσης ανεξάρτητα από την είσοδο, αποφάσισα να ωθήσω και τα δύο μοντέλα σε λειτουργία πλήρους καρικατούρας. Το επίκεντρο ήταν η βελτίωση της ποιότητας των κινουμένων σχεδίων μέσω της χρήσης προηγμένων τεχνικών τεχνητής νοημοσύνης.

Στην πραγματικότητα, η DALL·E έκανε καλή δουλειά εδώ – κατάλαβε ακόμη και το αίτημα για διαφανές φόντο. κάπως. Αυτό που παίρνουμε είναι το κλασικό γκρι και λευκό μοτίβο σκακιέρας που συνήθως σημαίνει διαφάνεια… εκτός από εδώ, αναμειγνύεται στην εικόνα. Άρα, δεν είναι καθόλου διαφανές.
Είναι επίσης ειρωνικό το γεγονός ότι το βιολογικό χέρι του χάκερ που δημιουργείται από AI έχει τέσσερα δάχτυλα ενώ το ηλεκτρονικό χέρι έχει πέντε. Ίσως κάλυψε το λάθος χέρι με χρώμιο;

Το ChatGPT 4o φαίνεται πιο ξεκάθαρο και σκόπιμο. Το στυλ χρωματισμού ποικίλλει - αν είναι καλύτερο ή όχι είναι προσωπική υπόθεση - αλλά φαίνεται ξεκάθαρα ότι κάποιος καλλιτέχνης το ζωγράφισε έτσι. Τα γραφικά του ChatGPT είναι υψηλής ποιότητας και λεπτομερή.
Το φόντο είναι ήδη διαφανές. Μπορείτε να το βάλετε σε ένα μπλουζάκι, να το εκτυπώσετε ή ακόμα και να το μετατρέψετε σε αυτοκόλλητο WhatsApp αμέσως.
3. Καθρέφτες και αντανακλάσεις
Μοντέρνος νεροχύτης μπάνιου με οδοντόβουρτσα και ξυράφι στον πάγκο, ορατοί στον καθρέφτη και στην πραγματικότητα – ο φωτισμός είναι απαλός και ομοιόμορφος. Η ακρίβεια των αντανακλάσεων σε εικόνες που δημιουργούνται με τεχνητή νοημοσύνη είναι μια διαρκής πρόκληση.
Οι καθρέφτες αντανακλούν εικόνες και οι αντανακλάσεις χρειάζονται χωρική λογική για να φαίνονται φυσικές. Έκανα μια καταχώριση που ήξερα ότι θα έπεφτε ο DALL-E. Η δημιουργία ρεαλιστικών εικόνων με ακριβείς αντανακλάσεις είναι μια από τις μεγαλύτερες προκλήσεις που αντιμετωπίζει η τεχνητή νοημοσύνη.

Όπως αναμενόταν. Υπάρχει κάτι που προσπαθεί να είναι μια αντανάκλαση της βρύσης στον καθρέφτη, αλλά είναι πολύ μακρύ. Η οδοντόβουρτσα επιπλέει μέσα στο νεροχύτη και δεν εκπέμπει καμία αντανάκλαση. Το DALL-E έχει καταβάλει μεγάλη προσπάθεια σε αυτό το παράδειγμα.

Το νεότερο μοντέλο κάνει πολύ καλύτερη δουλειά για να κάνει την εικόνα να φαίνεται αληθινή, σαν μια πραγματική φωτογραφία. Η αντανάκλαση της βρύσης είναι λίγο λοξή αλλά αποδεκτή. Έπειτα, υπάρχει η οδοντόβουρτσα, η οποία έχει μια αντανάκλαση αλλά δεν υπάρχει στον φυσικό κόσμο—σαν βαμπίρ αντίστροφα.
Δεν υπάρχει ξεκάθαρος νικητής εδώ. Τα αποτελέσματα της τεχνητής νοημοσύνης ήταν ασυνεπή, οπότε έδωσα άλλη μια ευκαιρία και στα δύο με κάτι πιο φιλόδοξο:
Μια γυναίκα στέκεται μπροστά από έναν ολόσωμο καθρέφτη σε μια ηλιόλουστη κρεβατοκάμαρα, με τα ρούχα και τη στάση της να αντικατοπτρίζονται τέλεια, με μια καθαρή αντανάκλαση του παραθύρου πίσω της.

…Δεν θέλω καν να τιμήσω αυτό το παράδειγμα με ανάλυση. Άνθρωποι, αν θέλετε να κάνετε το DALL-E να φαίνεται άσχημο, απλώς προσθέστε τη λέξη "mirror" στην καταχώρισή σας. Ας προχωρήσουμε.

Όπως ήταν αναμενόμενο, το ChatGPT 4o φαίνεται πιο ρεαλιστικό – αλλά ίσως λίγο σουρεαλιστικό αυτή τη φορά; Η πόζα και τα ρούχα της γυναίκας αντικατοπτρίζονται, αλλά μόνο εν μέρει, σαν ένα εφέ XNUMXD Photoshop. Οι γωνίες ανάκλασης είναι επίσης λανθασμένες. Η τεχνητή νοημοσύνη εξακολουθεί να μην μπορεί να χειριστεί τη χωρική λογική. Η κατανόηση του τρισδιάστατου χώρου και των αντανακλάσεων φαίνεται να είναι μια σημαντική πρόκληση για την τεχνητή νοημοσύνη.
2. Αυτοκίνητα και δρόμοι
Ένα Ford GT του 2006 και ένα Peugeot 206 ανάβουν κόκκινο φανάρι στη Wall Street της Νέας Υόρκης το μεσημέρι.
Είμαι λάτρης του αυτοκινήτου. Όταν πρωτοκυκλοφόρησε το λογισμικό δημιουργίας εικόνων AI, ένα από τα πρώτα πράγματα που προσπάθησα ήταν να δημιουργήσω εικόνες από αυτοκίνητα. Τα αποτελέσματα δεν ήταν καλά εκείνη τη στιγμή, αλλά με το νέο μοντέλο που κυκλοφόρησε, έπρεπε να προσπαθήσω ξανά.

Εδώ ο DALL-E επιδεικνύει ξανά την ολοένα και πιο ανησυχητική καρτουνίστικη αισθητική του. Το Peugeot είναι στο πεζοδρόμιο, τα φανάρια που ζήτησα είναι απέναντι από κτίρια και οι αριθμοί πινακίδων είναι όλοι ακατανόητοι.

Τα αποτελέσματα του ChatGPT 4o είναι πολύ καλύτερα. Τα αυτοκίνητα απεικονίζονται σωστά – ακόμη και τα καπάκια της Peugeot είναι πολύ ακριβή και ταιριάζουν στην εποχή. Αυτή η λεπτομέρεια δεν είναι τυχαία. Γίνεται ακόμα καλύτερο:

Θα μπορούσα πραγματικά να χρησιμοποιήσω αυτήν την εικόνα ως ταπετσαρία του τηλεφώνου μου. Φωτισμός, σύνθεση, αντανακλάσεις – όλα φαίνονται τέλεια. Εκτός από το περίεργο κενό στο δρόμο, αυτό θα μπορούσε να περάσει ως πραγματική φωτογραφία.
1. Κείμενα και μηνύματα
Ένα χειρόγραφο γράμμα σε παλιό χαρτί σε γράμματα, τοποθετημένο δίπλα σε στυλό και μπουκάλι μελανιού.
Τέλος, στοχεύουμε το αδύνατο σημείο κάθε γεννήτριας εικόνας. Οι περισσότερες γεννήτριες εικόνων AI δυσκολεύονται να παράγουν σωστό κείμενο. Μέχρι τώρα, έχετε δει αρκετές ασυναρτησίες από το DALL-E στα προηγούμενα παραδείγματα για να καταλάβετε τι εννοώ. Η δημιουργία κειμένου από εικόνες είναι μια σημαντική πρόκληση για τους προγραμματιστές αυτών των τεχνολογιών.
Για να το κάνω πιο ενδιαφέρον —και συνεπές— πρόσθεσα ότι η επιστολή πρέπει να περιέχει το κείμενο της επιστολής του βασιλιά Τερένα προς τον Άρθα από το Warcraft III.

Το DALL-E έκανε αυτό που κάνει καλύτερα με το κείμενο: το μετέτρεψε σε ασαφές, ακατανόητο κείμενο. Κατάφερε να γράψει κάποιες λέξεις σωστά και η συνολική ατμόσφαιρα φαίνεται καλή – το στυλό και το μπουκάλι μελανιού φαίνονται καλά. Αλλά η ακρίβεια της δημιουργίας κειμένου εξακολουθεί να είναι περιορισμένη.

Το ChatGPT 4o το κατακτά – κάθε λέξη, με καθαρή καμπύλη. ιδανικό. Σε σύγκριση με το DALL-E, αυτό είναι ένα τεράστιο άλμα προς τα εμπρός. Μπράβο OpenAI. Αυτή η εξέλιξη δείχνει πόσο έχουν προχωρήσει οι τεχνολογίες AI στη δημιουργία κειμένου.
Οι τεχνολογίες δημιουργίας εικόνων AI έχουν προχωρήσει πολύ – και αυτό φαίνεται. Το ChatGPT 4o αισθάνεται σαν το πρώτο μοντέλο που πραγματικά το καταλαβαίνει όσον αφορά τον φωτισμό, την υφή και το περιβάλλον. Αυτό αντιπροσωπεύει μια σημαντική πρόοδο στον τομέα της δημιουργίας εικόνων AI.
Σε αυτό το σημείο, το μόνο πραγματικό ερώτημα που απομένει είναι: Πόσο ισχυρές είναι οι προστασίες του ChatGPT; Παρέκαμψα εύκολα τους περιορισμούς πνευματικών δικαιωμάτων του. Πόσο καιρό θα περάσει μέχρι κάποιος να κάνει jailbreak στο ChatGPT και να αρχίσει να δημιουργεί όποιο περιεχόμενο θέλει χρησιμοποιώντας αυτό το απίστευτα ικανό μοντέλο; Αυτή η δυνατότητα εγείρει ερωτήματα σχετικά με την υπεύθυνη χρήση των τεχνολογιών AI.