Αν έχετε ποτέ ανεβάσει φωτογραφίες ή έργα τέχνης, γράψατε μια κριτική, κάνατε "μου αρέσει" σε κάποιο περιεχόμενο, απαντήσατε σε μια ερώτηση στο Reddit, συνεισφέρατε σε κώδικα ανοιχτού τύπου ή κάνατε οποιεσδήποτε άλλες δραστηριότητες στο διαδίκτυο, έχετε κάνει δωρεάν δουλειά για εταιρείες τεχνολογίας, επειδή κατεβάζετε όλο αυτό το περιεχόμενο από τον Ιστό είναι ο τρόπος με τον οποίο τα συστήματα τεχνητής νοημοσύνης τους, μαθαίνουν για τον κόσμο. Οι εταιρείες τεχνολογίας το γνωρίζουν αυτό, αλλά συγκαλύπτουν τη συνεισφορά σας στα προϊόντα τους με τεχνικούς όρους όπως «δεδομένα εκπαίδευσης», «μη εποπτευόμενη μάθηση» και «εξάτμιση δεδομένων» (και, φυσικά, αδιαπέραστα έγγραφα «Όροι χρήσης»). Στην πραγματικότητα, μεγάλο μέρος της καινοτομίας στην τεχνητή νοημοσύνη τα τελευταία χρόνια έχει να κάνει με τρόπους να χρησιμοποιείτε όλο και περισσότερο από το περιεχόμενό σας δωρεάν. Αυτό ισχύει για μηχανές αναζήτησης όπως η Google, ιστότοπους μέσων κοινωνικής δικτύωσης όπως το Instagram, νεοσύστατες εταιρείες έρευνας τεχνητής νοημοσύνης όπως το OpenAI και πολλούς άλλους παρόχους ευφυών τεχνολογιών. Αυτή η δυναμική εκμετάλλευσης είναι ιδιαίτερα επιζήμια όταν πρόκειται για το νέο κύμα παραγωγικών προγραμμάτων τεχνητής νοημοσύνης όπως το Dall-E και το ChatGPT. Χωρίς το περιεχόμενό σας, το ChatGPT και όλα τα παρόμοια απλά δεν θα υπήρχαν. Πολλοί ερευνητές τεχνητής νοημοσύνης πιστεύουν ότι το περιεχόμενό σας είναι στην πραγματικότητα πιο σημαντικό από αυτό που κάνουν οι επιστήμονες υπολογιστών. Ωστόσο, αυτές οι ευφυείς τεχνολογίες που εκμεταλλεύονται την εργασία σας είναι οι ίδιες τεχνολογίες που απειλούν να σας αφήσουν χωρίς δουλειά. Είναι λες και το σύστημα AI έμπαινε στο εργοστάσιό σας και έκλεβε το μηχάνημά σας. Αλλά αυτή η δυναμική σημαίνει επίσης ότι οι χρήστες που παράγουν δεδομένα έχουν μεγάλη ισχύ. Οι συζητήσεις για τη χρήση εξελιγμένων τεχνολογιών τεχνητής νοημοσύνης συχνά προέρχονται από μια θέση αδυναμίας και από τη στάση ότι οι εταιρείες τεχνητής νοημοσύνης θα κάνουν ό,τι θέλουν, και ελάχιστα μπορεί να κάνει το κοινό για να μετατοπίσει την τεχνολογία σε διαφορετική κατεύθυνση. Είμαστε ερευνητές τεχνητής νοημοσύνης και η έρευνά μας υποδηλώνει ότι το κοινό έχει μια τεράστια ποσότητα « μόχλευσης δεδομένων » που μπορεί να χρησιμοποιηθεί για τη δημιουργία ενός οικοσυστήματος τεχνητής νοημοσύνης που παράγει εκπληκτικές νέες τεχνολογίες και μοιράζεται τα οφέλη αυτών των τεχνολογιών δίκαια με τους ανθρώπους που τις δημιούργησαν. Η μόχλευση δεδομένων μπορεί να αναπτυχθεί μέσω τουλάχιστον τεσσάρων οδών: άμεση δράση (για παράδειγμα, άτομα που ενώνονται για να αποκρύψουν, «δηλητηριάσουν» ή ανακατευθύνουν δεδομένα), ρυθμιστική δράση (για παράδειγμα, πιέσεις για πολιτική προστασίας δεδομένων και νομική αναγνώριση των « συνασπισμών δεδομένων ») , νομικές ενέργειες (για παράδειγμα, κοινότητες που υιοθετούν νέα καθεστώτα αδειοδότησης δεδομένων) και ενέργειες αγοράς (για παράδειγμα, τα απαιτητικά μοντέλα μεγάλων γλωσσών προγραμματισμού να εκπαιδεύονται μόνο με δεδομένα από συναινούντες δημιουργούς). Ας ξεκινήσουμε με την άμεση δράση, η οποία είναι μια ιδιαίτερα συναρπαστική διαδρομή γιατί μπορεί να γίνει άμεσα. Λόγω της εξάρτησης των συστημάτων γενετικής τεχνητής νοημοσύνης από την απόξεση ιστού, οι ιδιοκτήτες ιστότοπων θα μπορούσαν να διαταράξουν σημαντικά τη διοχέτευση δεδομένων εκπαίδευσης εάν απαγορεύσουν ή περιορίσουν την απόξεση διαμορφώνοντας το αρχείο robots.txt (ένα αρχείο που ενημερώνει τους ανιχνευτές ιστού ποιες σελίδες είναι εκτός ορίου). Οι εταιρείες πολυμέσων, των οποίων το έργο είναι πολύ σημαντικό για τα μεγάλα γλωσσικά μοντέλα (LLM), μπορεί επίσης να θελήσουν να εξετάσουν ορισμένες από αυτές τις ιδέες για να περιορίσουν τα συστήματα παραγωγής τεχνητής νοημοσύνης από την πρόσβαση στο δικό τους περιεχόμενο, καθώς αυτά τα συστήματα παίρνουν επί του παρόντος τα κοσμήματά τους δωρεάν (συμπεριλαμβανομένων πιθανότατα, αυτό είναι πολύ εύστοχο). Για παράδειγμα, ο Ezra Klein ανέφερε σε ένα πρόσφατο podcast ότι το ChatGPT είναι εξαιρετικό στο να τον μιμείται, πιθανώς επειδή κατέβασε πολλά από τα άρθρα του χωρίς να ρωτήσει τον ίδιο ή τον εργοδότη του. Ο χρόνος είναι επίσης με το μέρος των δημιουργών δεδομένων: Καθώς συμβαίνουν νέα γεγονότα στον κόσμο, η τέχνη ξεφεύγει από τη μόδα, τα δεδομένα αλλάζουν και νέα εστιατόρια ανοίγουν, νέες ροές δεδομένων είναι απαραίτητες για την υποστήριξη των ενημερωμένων συστημάτων. Χωρίς αυτές τις ροές, αυτά τα συστήματα πιθανότατα θα αποτύχουν για πολλές βασικές εφαρμογές. Με την άρνησή τους να διαθέσουν νέα δεδομένα χωρίς αποζημίωση, οι δημιουργοί δεδομένων θα μπορούσαν επίσης να ασκήσουν πίεση στις εταιρείες να πληρώσουν για την πρόσβαση σε αυτά. Από τη ρυθμιστική πλευρά, οι νομοθέτες πρέπει να αναλάβουν δράση για να προστατεύσουν αυτή που θα μπορούσε να είναι η μεγαλύτερη κλοπή εργασίας στην ιστορία, και μάλιστα γρήγορα. Ένας από τους καλύτερους τρόπους για να γίνει αυτό είναι να διευκρινιστεί ότι η "δίκαιη χρήση" σύμφωνα με τη νομοθεσία περί πνευματικών δικαιωμάτων δεν επιτρέπει την εκπαίδευση ενός μοντέλου σε περιεχόμενο χωρίς τη συγκατάθεση του κατόχου περιεχομένου, τουλάχιστον για εμπορικούς σκοπούς. Οι νομοθέτες σε όλο τον κόσμο θα πρέπει επίσης να εργαστούν σε νόμους «κατά της νομιμοποίησης δεδομένων» που καθιστούν σαφές ότι τα μοντέλα που εκπαιδεύονται σε δεδομένα χωρίς συναίνεση πρέπει να επανεκπαιδεύονται εντός εύλογου χρονικού διαστήματος χωρίς το προσβλητικό περιεχόμενο. Πολλά από αυτά μπορούν να βασιστούν σε υπάρχοντα πλαίσια σε μέρη όπως η Ευρώπη και η Καλιφόρνια, καθώς και το ρυθμιστικό έργο που γίνεται για να διασφαλιστεί ότι οι ειδησεογραφικοί οργανισμοί λαμβάνουν μερίδιο από τα έσοδα που παράγουν για τις πλατφόρμες κοινωνικών μέσων. Υπάρχει επίσης αυξανόμενη δυναμική για τους νόμους περί «μερίσματος δεδομένων», οι οποίοι θα αναδιανείμουν τον πλούτο που παράγεται από τις ευφυείς τεχνολογίες. Αυτά μπορούν επίσης να βοηθήσουν, υποθέτοντας ότι αποφεύγουν κάποιες βασικές παγίδες. Επιπλέον, οι υπεύθυνοι χάραξης πολιτικής θα μπορούσαν να βοηθήσουν μεμονωμένους δημιουργούς και συνεισφέροντες δεδομένων να ενωθούν για να υποβάλουν απαιτήσεις. Συγκεκριμένα, η υποστήριξη πρωτοβουλιών όπως οι συνεταιρισμοί δεδομένων -οργανισμοί που διευκολύνουν τους συνεισφέροντες δεδομένων να συντονίσουν και να συγκεντρώσουν τη δύναμή τους- θα μπορούσε να διευκολύνει μεγάλης κλίμακας απεργίες δεδομένων μεταξύ των δημιουργών και να φέρει τις εταιρείες που χρησιμοποιούν AI στο τραπέζι των διαπραγματεύσεων. Τα δικαστήρια παρουσιάζουν επίσης τρόπους με τους οποίους οι άνθρωποι μπορούν να ανακτήσουν τον έλεγχο του περιεχομένου τους. Ενώ τα δικαστήρια εργάζονται για τη διευκρίνιση των ερμηνειών του νόμου περί πνευματικών δικαιωμάτων, υπάρχουν πολλές άλλες επιλογές. Το LinkedIn πέτυχε να αποτρέψει τους χρήστες που διαγράφουν τον ιστότοπό του από το να συνεχίσουν να το κάνουν μέσω των Όρων Χρήσης και του δικαίου των συμβάσεων. Η εργατική νομοθεσία μπορεί επίσης να παρέχει μια οπτική γωνία για την εξουσιοδότηση των συνεισφερόντων δεδομένων. Ιστορικά, η εξάρτηση των εταιρειών από «εθελοντές» για τη λειτουργία των επιχειρήσεών τους έχει εγείρει σημαντικά ερωτήματα σχετικά με το εάν αυτές οι εταιρείες παραβίασαν τον νόμο περί δίκαιων προτύπων εργασίας και αυτοί οι αγώνες θα μπορούσαν να χρησιμεύσουν ως σχέδιο. Στο παρελθόν, ορισμένοι εθελοντές έχουν καταλήξει ακόμη και σε νομικούς διακανονισμούς με εταιρείες που επωφελήθηκαν από το έργο τους. Υπάρχει επίσης κρίσιμος ρόλος για την αγορά εδώ. Εάν αρκετές κυβερνήσεις, ιδρύματα και ιδιώτες απαιτούν "Πλήρης Συναίνεση LLM"—τα οποία πληρώνουν τους δημιουργούς για το περιεχόμενο που χρησιμοποιούν— οι εταιρείες θα ανταποκριθούν. Αυτή η απαίτηση θα μπορούσε να ενισχυθεί με επιτυχείς αγωγές εναντίον οργανισμών που χρησιμοποιούν γενετική τεχνητή νοημοσύνη (σε αντίθεση με οργανισμούς που κατασκευάζουν τα συστήματα) χωρίς να πληρώνουν χρήστες. Εάν οι εφαρμογές που έχουν κατασκευαστεί πάνω από μοντέλα τεχνητής νοημοσύνης αντιμετωπίσουν αγωγές, θα υπάρξει μεγαλύτερη ζήτηση για συστήματα τεχνητής νοημοσύνης που δεν παίζουν στη νόμιμη Άγρια Δύση. Η έρευνα του εργαστηρίου μας (και των συναδέλφων μας) προτείνει επίσης κάτι που μας εξέπληξε: Πολλές από τις παραπάνω ενέργειες θα πρέπει να βοηθήσουν στην πραγματικότητα τις εταιρείες παραγωγής τεχνητής νοημοσύνης. Χωρίς οικοσυστήματα υγιούς περιεχομένου, το περιεχόμενο στο οποίο βασίζονται οι τεχνολογίες παραγωγής τεχνητής νοημοσύνης για να μάθουν για τον κόσμο θα εξαφανιστεί. Εάν κανείς δεν πάει στο Reddit επειδή λαμβάνει απαντήσεις από το ChatGPT, πώς θα μάθει το ChatGPT από το περιεχόμενο του Reddit; Αυτό θα δημιουργήσει σημαντικές προκλήσεις για αυτές τις εταιρείες με τρόπο που μπορούν να επιλυθούν πριν εμφανιστούν, υποστηρίζοντας κάποιες από τις παραπάνω προσπάθειες. Αρχικά Δημοσιεύθηκε στο Wired |