Τι γίνεται αν σας τελειώσουν τα δεδομένα εκπαίδευσης μοντέλων AI;
Η ταχεία πρόοδος στην τεχνητή νοημοσύνη εξαρτάται κυρίως από τη διαθεσιμότητα ακριβών και μεγάλης κλίμακας δεδομένων εκπαίδευσης. Καθώς η χρήση της τεχνητής νοημοσύνης επεκτείνεται σε διάφορους τομείς, πολλές εταιρείες αρχίζουν να αντιμετωπίζουν προκλήσεις που σχετίζονται με την έλλειψη διαθέσιμων δεδομένων εκπαίδευσης, η οποία μπορεί να επηρεάσει την ποιότητα και την αποτελεσματικότητα των ευφυών μοντέλων που αναπτύσσουν. Λοιπόν, πώς μπορούμε να συνεχίσουμε να εκπαιδεύουμε και να αναπτύσσουμε συστήματα AI παρά αυτό το έλλειμμα;
Το Διαδίκτυο μπορεί να φαίνεται σαν να είναι γεμάτο με διαθέσιμα δεδομένα, αλλά η τεχνητή νοημοσύνη έχει ήδη καταναλώσει τις περισσότερες από τις ανοιχτές πηγές. Ωστόσο, αυτό δεν σημαίνει ότι η πρόοδος θα σταματήσει. Υπάρχουν νέες στρατηγικές που μπορούν να χρησιμοποιηθούν για να γεφυρωθεί το χάσμα δεδομένων, όπως η παραγωγή συνθετικών δεδομένων, η συλλογή εξατομικευμένων δεδομένων και η χρήση μη δομημένων δεδομένων με καινοτόμους τρόπους. Σε αυτό το άρθρο, θα εξερευνήσουμε αυτές τις καινοτόμες λύσεις και πώς μπορούν να υποστηρίξουν την ανάπτυξη της τεχνητής νοημοσύνης, διασφαλίζοντας ότι θα συνεχίσει να προσφέρει βελτιωμένη απόδοση και μεγαλύτερη αξία στους χρήστες.

1. Τα δεδομένα Plus προστίθενται πάντα ηλεκτρονικά.
Εν ολίγοις, λέει το Ινστιτούτο Ερευνών Τεχνητής Νοημοσύνης Εποχή Τα δεδομένα υψηλής ποιότητας για την εκπαίδευση της τεχνητής νοημοσύνης θα μπορούσαν να εξαντληθούν έως το 2026.
Η λέξη κλειδί εκεί είναι «μπορώ». Ο όγκος των δεδομένων που προστίθενται στο Διαδίκτυο αυξάνεται κάθε χρόνο, επομένως κάτι δραστικό μπορεί να αλλάξει πριν από το 2026. Ωστόσο, αυτή εξακολουθεί να είναι μια δίκαιη εκτίμηση — σε κάθε περίπτωση, τα συστήματα AI θα ξεμείνουν από καλά δεδομένα κάποια στιγμή.
Ωστόσο, πρέπει να θυμόμαστε ότι περίπου 147 zettabytes δεδομένων προστίθενται στο διαδίκτυο κάθε χρόνο (σύμφωνα με... Θέματα έκρηξης). Μόνο ένα zettabyte ισούται με 1,000,000,000,000,000,000,000 bit δεδομένων. Σε πραγματικούς όρους, αυτό είναι πάνω από 30 δισεκατομμύρια ταινίες 4K (πραγματικές, αλλά ανεξιχνίαστες). Είναι ένας συγκλονιστικός όγκος πληροφοριών για την τεχνητή νοημοσύνη.
Ωστόσο, η τεχνητή νοημοσύνη καταναλώνει δεδομένα πιο γρήγορα από όσο μπορεί να τα παράγει η ανθρωπότητα...
2. Η τεχνητή νοημοσύνη μπορεί να ξεχάσει δεδομένα χαμηλής ποιότητας
Φυσικά, δεν είναι καλά δεδομένα και τα 147 zettabyte. Υπάρχουν περισσότερα από όσα φαίνονται στο μάτι. Ωστόσο, εκτιμάται ότι η τεχνητή νοημοσύνη θα καταναλώνει γλωσσικά δεδομένα χαμηλής ποιότητας έως το 2050 επίσης.
έχουν αναφερθεί Reuters Το Photobucket, κάποτε ένα από τα μεγαλύτερα αποθετήρια φωτογραφιών στον κόσμο, βρίσκεται σε συζητήσεις για την άδεια χρήσης της τεράστιας βιβλιοθήκης του σε εταιρείες εκπαίδευσης τεχνητής νοημοσύνης. Οι φωτογραφίες έχουν δεδομένα για την εκπαίδευση μοντέλων όπως το DALL-E και το Midjourney, αλλά ακόμη και αυτά θα μπορούσαν να εξαντληθούν μέχρι το 2060. Υπάρχει επίσης ένα μεγαλύτερο πρόβλημα: Το Photobucket έχει συμπεριλάβει φωτογραφίες από πλατφόρμες κοινωνικής δικτύωσης της δεκαετίας του XNUMX όπως το Myspace, που σημαίνει ότι δεν είναι τόσο υψηλό επίπεδο όσο το τρέχον φωτογραφία. Αυτό οδηγεί σε δεδομένα χαμηλής ποιότητας.
Το Photobucket δεν είναι μόνο. Τον Φεβρουάριο του 2024, η Google σύναψε συμφωνία με το Reddit, επιτρέποντας στον γίγαντα αναζήτησης να χρησιμοποιεί τα δεδομένα χρηστών της πλατφόρμας κοινωνικών μέσων για την εκπαίδευση της τεχνητής νοημοσύνης. Άλλες πλατφόρμες κοινωνικής δικτύωσης παρέχουν επίσης δεδομένα χρηστών για σκοπούς εκπαίδευσης σε τεχνητή νοημοσύνη. Μερικοί το χρησιμοποιούν για να εκπαιδεύσουν εσωτερικά μοντέλα AI, όπως το Llama του Meta.
Ωστόσο, ενώ ορισμένες πληροφορίες μπορούν να εξαχθούν από δεδομένα χαμηλής ποιότητας, η Microsoft φέρεται να αναπτύσσει έναν τρόπο για την τεχνητή νοημοσύνη να «αγνοεί» επιλεκτικά δεδομένα. Κατά κύριο λόγο, αυτή η λύση θα χρησιμοποιηθεί για θέματα πνευματικής ιδιοκτησίας, αλλά μπορεί επίσης να σημαίνει ότι τα εργαλεία μπορούν να ξεχάσουν τι έχουν μάθει από σύνολα δεδομένων χαμηλής ποιότητας.
Μπορούμε να τροφοδοτήσουμε με τεχνητή νοημοσύνη περισσότερα δεδομένα χωρίς να είμαστε πολύ επιλεκτικοί. Αυτά τα συστήματα AI μπορούν στη συνέχεια να επιλέξουν και να επιλέξουν από τι είναι πιο χρήσιμο να μάθει κανείς.
3. Η αναγνώριση ομιλίας ξεκλειδώνει δεδομένα που είναι διαθέσιμα σε βίντεο και podcast
Τα δεδομένα που τροφοδοτήθηκαν στα εργαλεία AI μέχρι στιγμής αποτελούνταν σε μεγάλο βαθμό από κείμενο και, σε μικρότερο βαθμό, από εικόνες. Αυτό αναμφίβολα θα αλλάξει, και πιθανότατα έχει ήδη, επειδή το λογισμικό αναγνώρισης ομιλίας θα σημαίνει ότι η αφθονία των διαθέσιμων βίντεο και podcast μπορεί επίσης να εκπαιδεύσει την τεχνητή νοημοσύνη.
Αξίζει να σημειωθεί ότι η OpenAI ανέπτυξε το νευρωνικό δίκτυο ανοιχτού κώδικα για αυτόματη αναγνώριση ομιλίας (ASR). Whisper - Ακουστικά, χρησιμοποιώντας 680.000 ώρες πολύγλωσσων δεδομένων πολλαπλών εργασιών. Στη συνέχεια, το OpenAI τροφοδότησε περισσότερες από ένα εκατομμύριο ώρες πληροφοριών από βίντεο YouTube στο μεγάλο γλωσσικό μοντέλο του, το GPT-4.
Αυτό είναι ένα ιδανικό μοντέλο για άλλα συστήματα AI, τα οποία χρησιμοποιούν αναγνώριση ομιλίας για να μεταγράψουν βίντεο και ήχο από πολλές πηγές και να τρέξουν αυτά τα δεδομένα μέσω των δικών τους μοντέλων AI.
σύμφωνα με Statista, περισσότερες από 500 ώρες βίντεο ανεβαίνουν στο YouTube κάθε λεπτό, αριθμός που έχει παραμείνει αρκετά σταθερός από το 2019. Και αυτό χωρίς να αναφέρουμε άλλες πλατφόρμες βίντεο και ήχου όπως το Dailymotion και το Podbean. Εάν η τεχνητή νοημοσύνη μπορεί να στρέψει την προσοχή της σε νέα σύνολα δεδομένων όπως αυτά, υπάρχει ακόμη ένας τεράστιος όγκος πληροφοριών που πρέπει να εξαχθεί.
4. Η τεχνητή νοημοσύνη έχει κολλήσει σε μεγάλο βαθμό στην αγγλική γλώσσα
Δεν είναι μόνο αυτό που μπορούμε να μάθουμε από τον Whisper. Το OpenAI εκπαίδευσε το μοντέλο χρησιμοποιώντας 117000 ώρες μη αγγλικών δεδομένων ήχου. Αυτό είναι ιδιαίτερα ενδιαφέρον επειδή πολλά συστήματα τεχνητής νοημοσύνης έχουν εκπαιδευτεί κυρίως χρησιμοποιώντας την αγγλική γλώσσα ή βλέποντας άλλους πολιτισμούς μέσω δυτικού φακού.
Στην ουσία, τα περισσότερα εργαλεία δεσμεύονται από την κουλτούρα των δημιουργών τους.
Πάρτε ως παράδειγμα το ChatGPT. Λίγο μετά την κυκλοφορία του το 2022,... Τζιλ Γουόκερ Ρέτμπεργκ, καθηγητής ψηφιακού πολιτισμού στο Πανεπιστήμιο του Μπέργκεν, Νορβηγία, πειραματίστηκε με το ChatGPT και κατέληξε στα εξής:
«Το ChatGPT δεν γνωρίζει πολλά για τη νορβηγική κουλτούρα. Ή μάλλον, όλα όσα γνωρίζει για τη νορβηγική κουλτούρα υποτίθεται ότι έχουν μάθει κυρίως από αγγλικές πηγές… Το ChatGPT είναι σαφώς συμβατό με τις αμερικανικές αξίες και νόμους. Σε πολλές περιπτώσεις αυτά είναι κοντά στις νορβηγικές και ευρωπαϊκές αξίες, αλλά αυτό δεν συμβαίνει πάντα.
Ως εκ τούτου, τα συστήματα τεχνητής νοημοσύνης μπορούν να αναπτυχθούν ώστε να έχουν μεγαλύτερο αριθμό πολυεθνικών ανθρώπων που αλληλεπιδρούν μαζί τους ή να χρησιμοποιούν πιο διαφορετικές γλώσσες και πολιτισμούς για την εκπαίδευση τέτοιων συστημάτων. Επί του παρόντος, πολλά μοντέλα τεχνητής νοημοσύνης περιορίζονται σε μία μόνο βιβλιοθήκη. Θα μπορούσε να αναπτυχθεί εάν του δοθούν τα κλειδιά των βιβλιοθηκών σε όλο τον κόσμο.
5. Οι εκδοτικοί οίκοι μπορούν να βοηθήσουν στην ανάπτυξη της τεχνητής νοημοσύνης.

Η πνευματική ιδιοκτησία είναι προφανώς ένα μεγάλο ζήτημα, αλλά ορισμένοι εκδότες μπορούν να βοηθήσουν στην προώθηση της τεχνητής νοημοσύνης συνάπτοντας συμφωνίες αδειοδότησης. Αυτό σημαίνει ότι δίνονται στα εργαλεία δεδομένα υψηλής ποιότητας, δηλαδή αξιόπιστα, από βιβλία και όχι πληροφορίες χαμηλής ποιότητας από διαδικτυακές πηγές.
Μάλιστα, ο Meta, ιδιοκτήτης των Facebook, Instagram και Whatsapp, λέγεται ότι σκέφτηκε να αγοράσει τον Simon & Schuster, έναν από τους εκδοτικούς οίκους «Big Five». Η ιδέα ήταν να χρησιμοποιηθεί βιβλιογραφία που δημοσίευσε η εταιρεία για την εκπαίδευση του AI του Meta. Η συμφωνία τελικά απέτυχε, ίσως λόγω της ηθικής γκρίζας ζώνης της εταιρείας που επεξεργάζεται IP χωρίς προηγούμενη συγκατάθεση από τους συγγραφείς.
Μια άλλη επιλογή που εξετάζεται φαίνεται να είναι η αγορά ατομικών δικαιωμάτων αδειοδότησης για νέους τίτλους. Αυτό θα πρέπει να προκαλέσει σημαντικές ανησυχίες για τους δημιουργούς, αλλά θα εξακολουθεί να είναι ένας ενδιαφέρον τρόπος για να αναπτύξουμε εργαλεία τεχνητής νοημοσύνης εάν εξαντληθούν τα χρησιμοποιήσιμα δεδομένα.
6. Τα συνθετικά δεδομένα είναι το μέλλον
Όλες οι άλλες λύσεις εξακολουθούν να είναι περιορισμένες, αλλά υπάρχει μια επιλογή που θα μπορούσε να οδηγήσει στην ακμή του AI στο μέλλον: τα συνθετικά δεδομένα. Το θέμα ήδη διερευνάται ως πολύ πραγματικό ενδεχόμενο.
Λοιπόν, τι είναι τα συνθετικά δεδομένα; Είναι δεδομένα που παράγονται από τεχνητή νοημοσύνη. Ακριβώς όπως οι άνθρωποι δημιουργούν δεδομένα, αυτή η μέθοδος θα δει το AI να δημιουργεί δεδομένα για εκπαιδευτικούς σκοπούς.
Στην πραγματικότητα, η τεχνητή νοημοσύνη μπορεί να δημιουργήσει πειστικά deepfake βίντεο. Αυτό το deepfake βίντεο μπορεί να ανατροφοδοτηθεί στο AI, ώστε να μπορεί να μάθει από αυτό που είναι ουσιαστικά ένα φανταστικό σενάριο. Αυτός είναι, τελικά, ένας από τους κύριους τρόπους με τους οποίους μαθαίνουν οι άνθρωποι: διαβάζουμε ή παρακολουθούμε κάτι για να κατανοήσουμε τον κόσμο γύρω μας.
Τα συστήματα τεχνητής νοημοσύνης πιθανότατα έχουν ήδη καταναλώσει τεχνητές πληροφορίες. Τα Deepfakes έχουν διαδώσει παραπλανητικές και ψευδείς πληροφορίες στο διαδίκτυο, επομένως όταν τα συστήματα AI σαρώνουν διαδικτυακό περιεχόμενο, είναι λογικό ότι ορισμένοι μπορεί να έχουν εκτεθεί σε ψεύτικο περιεχόμενο.
Ναι, υπάρχει μια απαίσια πλευρά σε αυτό. Μπορεί επίσης να βλάψει ή να περιορίσει τα συστήματα τεχνητής νοημοσύνης, ενισχύοντας και διαδίδοντας τα σφάλματα που γίνονται από αυτά τα εργαλεία. Οι εταιρείες εργάζονται για την εξάλειψη του προβλήματος. Ωστόσο, η φράση «Το AI μαθαίνει ο ένας από τον άλλο και κάνει λάθη» είναι ένα σημείο πλοκής για πολλά σενάρια εφιάλτη επιστημονικής φαντασίας.
7. Αξιοποιήστε καλύτερα την τεχνητή νοημοσύνη
Τα εργαλεία τεχνητής νοημοσύνης είναι αμφιλεγόμενα. Υπάρχουν πολλά μειονεκτήματα σε αυτό, αλλά οι επικριτές αγνοούν τα οφέλη του. Για παράδειγμα, Δίκτυο Ελέγχου και Συμβουλευτικής PwC [PDF] Η τεχνητή νοημοσύνη θα μπορούσε να συνεισφέρει έως και 15.7 τρισεκατομμύρια δολάρια στην παγκόσμια οικονομία έως το 2030.
Επιπλέον, η τεχνητή νοημοσύνη χρησιμοποιείται ήδη σε όλο τον κόσμο. Πιθανότατα το έχετε χρησιμοποιήσει σήμερα με τη μια ή την άλλη μορφή, ίσως χωρίς καν να το καταλάβετε. Τώρα το τζίνι έχει βγει από το μπουκάλι, το κλειδί είναι σίγουρα να το εκπαιδεύσουμε σε αξιόπιστα, υψηλής ποιότητας δεδομένα, ώστε να μπορούμε να το αξιοποιήσουμε σωστά.
Η τεχνητή νοημοσύνη έχει τα θετικά και τα αρνητικά της. Σίγουρα υπάρχει μια ισορροπία που πρέπει να βρεθεί.
Τα εργαλεία AI αντιμετωπίζουν μια αυξανόμενη πρόκληση λόγω της έλλειψης διαθέσιμων δεδομένων εκπαίδευσης, τα οποία απειλούν να υπονομεύσουν την πρόοδο και την ανάπτυξή τους. Για να ξεπεραστεί αυτή η πρόκληση, υιοθετούνται καινοτόμες λύσεις, όπως η χρήση συνθετικών δεδομένων, η μόχλευση της μάθησης χωρίς επίβλεψη και η προώθηση της συνεργασίας μεταξύ των ιδρυμάτων για την ανταλλαγή δεδομένων. Αυτές οι λύσεις βοηθούν στην παροχή νέων πηγών δεδομένων, διασφαλίζοντας ότι τα έξυπνα μοντέλα συνεχίζουν να βελτιώνονται και να αναπτύσσονται αποτελεσματικά και αποτελεσματικά.