Η αμερικανική εταιρεία Anthropic που έχει μπει σφήνα στη βιομηχανία της τεχνητής νοημοσύνης σε κολοσσούς όπως η Google και η OpenAI αναπτύσσοντας πολύ προηγμένα συστήματα ΑΙ όπως το Mythos που έχει προκαλέσει παγκόσμια ανησυχία με τις δυνατότητες του έστειλε επιστολή στην αμερικανική Γερουσία στην οποία υποστηρίζει ότι ο κινεζικός εμπορικός γίγαντας Alibaba υπέκλεψε την τεχνολογία της με την μέθοδο της «απόσταξης γνώσης». Τι γνωρίζουμε για αυτήν την μέθοδο;
Η μέθοδος της απόσταξης γνώσης (knowledge distillation) στην τεχνητή νοημοσύνη είναι μια τεχνική εκπαίδευσης όπου ένα μικρό, απλό μοντέλο (ο «μαθητής») μαθαίνει να μιμείται τη συμπεριφορά και τις δυνατότητες ενός πολύ μεγαλύτερου πιο σύνθετου μοντέλου (ο «δάσκαλος»). Ο κύριος στόχος είναι να επιτευχθεί υψηλή ακρίβεια, αλλά με μικρότερο μέγεθος, ταχύτερους χρόνους απόκρισης και χαμηλότερο κόστος λειτουργίας.
* Το Μοντέλο “Δάσκαλος”: Είναι ένα γιγαντιαίο, προ-εκπαιδευμένο μοντέλο (π.χ., ένα μεγάλο γλωσσικό μοντέλο – LLM) που έχει κατακτήσει υψηλή ακρίβεια αλλά απαιτεί ακριβό εξοπλισμό (servers με κάρτες γραφικών) για να λειτουργήσει.
* Το Μοντέλο “Μαθητής”: Είναι ένα μικρότερο και ελαφρύτερο μοντέλο που θέλουμε να εκπαιδεύσουμε.
* Η “Απόσταξη” της Γνώσης: Αντί ο μαθητής να εκπαιδεύεται μόνο από τα αρχικά δεδομένα, τροφοδοτείται με τις απαντήσεις και τις πιθανότητες (soft targets) που υπολογίζει ο δάσκαλος. Έτσι ο μαθητής δεν μαθαίνει απλώς τη σωστή απάντηση αλλά μαθαίνει και τον τρόπο σκέψης του δασκάλου δηλαδή ποιες άλλες επιλογές θεωρήθηκαν πιθανές ή λιγότερο πιθανές.
Γιατί χρησιμοποιείται;
1. Ταχύτητα (Inference Latency): Τα μικρότερα μοντέλα δημιουργούν απαντήσεις πολύ πιο γρήγορα από τα αντίστοιχα γιγαντιαία.
2. Φορητότητα (Resource Efficiency): Επιτρέπει σε προηγμένες λειτουργίες τεχνητής νοημοσύνης να «τρέξουν» σε περιβάλλοντα με περιορισμένη υπολογιστική ισχύ, όπως σε κινητά τηλέφωνα, tablets ή άλλες συσκευές.
3. Οικονομία: Η εκτέλεση ενός μικρού μοντέλου είναι δραματικά φθηνότερη σε υπολογιστικούς πόρους και ενέργεια.
Naftemporiki.gr