Τα μοντέλα τεχνητής νοημοσύνης (AI) ξεπερνούν πραγματικά τις ανθρώπινες δυνατότητες; Ή είναι οι τρέχουσες δοκιμές πολύ απλές γι ‘αυτούς;
Την Πέμπτη, η Scale AI και το Κέντρο Ασφάλειας του AI (CAIS) κυκλοφόρησαν την “τελευταία εξέταση της ανθρωπότητας” (HLE), ένα νέο ακαδημαϊκό τεστ, ο σκοπός του οποίου είναι να «δοκιμάσουν τα όρια των γνώσεων του ΑΙ σχετικά με τα όρια του ανθρώπου Γνώση “, ανέφερε η έκθεση της κλίμακας AI. Η δοκιμή αποτελείται από 3000 ερωτήματα κειμένων και πολυτροπικών σχετικά με περισσότερα από 100 θέματα, όπως τα μαθηματικά, τις φυσικές επιστήμες και τις ανθρωπιστικές επιστήμες που παρουσιάζονται από εμπειρογνώμονες σε διάφορους τομείς.
Επίσης: Γυρίστε, Darwin: Πώς η “Εξέλιξη του Νου” από το Google DeepMind μπορεί να βελτιώσει το AI σκέψης
Ο Michael Herstenhaber από το Anthropic, ο επικεφαλής του τμήματος API-Technology, το περασμένο φθινόπωρο σε συνέντευξή του στο Bloomberg ότι τα μοντέλα AI συχνά βρίσκονται μπροστά από τις δοκιμές (επομένως, οι ηγέτες του Chatbot Arena αλλάζουν τόσο γρήγορα όταν απελευθερώνονται νέα μοντέλα) . Για παράδειγμα, πολλά προγράμματα LLM κερδίζουν επί του παρόντος περισσότερο από 90% στην Multitasking τη γλώσσα (MMLU), τη δοκιμή που χρησιμοποιείται ευρέως. Αυτό είναι γνωστό ως κορεσμός αναφοράς.
Αντίθετα, η κλίμακα δήλωσε ότι τα τρέχοντα μοντέλα απάντησαν σωστά λιγότερο από το 10 % των ερωτήσεων δοκιμών HLE.
Οι ερευνητές από δύο οργανισμούς συγκέντρωσαν αρχικά περισσότερες από 70.000 ερωτήσεις για το HLE, περιορίζοντάς τους έως και 13.000, οι οποίες ελέγχθηκαν από εμπειρογνώμονες και στη συνέχεια διαιρέθηκαν για άλλη μια φορά στο τελικό 3000. Δοκίμασαν ερωτήσεις σε κορυφαία μοντέλα όπως το O1 και το GPT-4O από το OpenAI , Claude 3.5 Sonnet από την ανθρωπότητα και το Gemini 1.5 Pro από την Google, καθώς και από τις δοκιμές MMLU, MATH και GPQA.
“Όταν κυκλοφόρησα το Math Test – ένα σύνθετο σύνολο μαθηματικών δεδομένων για τον ανταγωνισμό – το 2021, το καλύτερο μοντέλο κέρδισε λιγότερο από 10%. Λίγοι προέβλεπαν ότι οι εκτιμήσεις άνω του 90% θα επιτευχθούν μόνο τρία χρόνια αργότερα “, δήλωσε ο Dan Hendrix, CAIS. Συν -Πρόεδρος και Εκτελεστικός Διευθυντής. “Αυτή τη στιγμή,” η τελευταία εξέταση της ανθρωπότητας “δείχνει ότι εξακολουθούν να υπάρχουν κάποιες κλειστές ερωτήσεις εμπειρογνωμόνων που τα μοντέλα δεν μπορούν να απαντήσουν. Ας δούμε πόσο καιρό θα διαρκέσει.
Επίσης: Το νέο μοντέλο της τεχνητής νοημοσύνης Depseek με ανοιχτή πηγή μπορεί να ξεπεράσει το O1 για ένα μικρό μέρος του κόστους.
Η κλίμακα και η CAIS παραδόθηκαν σε βραβεία μετρητών συμμετεχόντων για τα καλύτερα ζητήματα: καθένα από τα 50 καλύτερα πήγε στα $ 5.000 και τα επόμενα 500 έλαβαν τα 500 δολάρια το καθένα. Παρόλο που τα τελευταία ζητήματα είναι πλέον διαθέσιμα στο κοινό, οι δύο οργανισμοί έχουν διατηρήσει ένα διαφορετικό σύνολο θεμάτων μυστικό για την επίλυση του προβλήματος της “επανεκπαίδευσης του μοντέλου” ή των περιπτώσεων όταν το μοντέλο είναι τόσο προσεκτικά εκπαιδευμένο σε ένα σύνολο δεδομένων που δεν μπορεί να κάνει ακριβή Προβλέψεις που βασίζονται σε νέα δεδομένα.
Οι δημιουργοί του δοκιμαστικού σημειώματος ότι εξακολουθούν να δέχονται προβλήματα δοκιμών, αλλά δεν θα απονείμουν πλέον τα χρηματικά έπαθλα, αν και οι συμμετέχοντες δικαιούνται συν-συγγραφέα.
Το CAIS και το Scale AI σχεδιάζουν να παρέχουν ένα σύνολο δεδομένων στους ερευνητές, ώστε να μπορούν να συνεχίσουν να μελετούν νέα συστήματα AI και τους περιορισμούς τους. Μπορείτε να δείτε όλο τον έλεγχο και παραδείγματα ερωτήσεων στον ιστότοπο lastExam.ai.