Σελίδες

Τετάρτη 22 Μαΐου 2024

 ΜΑΘΗΜΑ Νο 3: ΓΙΑ PROMPT ENGINEERING ΣΤΟ ΑΙ

(Συνεχίζοντας την παράθεση των ταχέων μαθημάτων_:
Το "Top-p (Nucleus Sampling)" είναι μια από τις τεχνικές που χρησιμοποιούνται στην επεξεργασία φυσικής γλώσσας, ιδιαίτερα στη δημιουργία κειμένου από γλωσσικά μοντέλα, για τον έλεγχο της ποικιλομορφίας και της ποιότητας του παραγόμενου προϊόντος.
Ας δούμε πως λειτουργεί:
1. Ορισμός: Η δειγματοληψία Top-p (Top-p Sampling), γνωστή και ως “δειγματοληψία πυρήνων”(Nucleus Sampling), αναφέρεται στην δειγματοληπτική επιλογή λέξεων, όχι μόνο με βάση τις μεμονωμένες πιθανότητες τους, αλλά με βάση τη αθροιστική κατανομή πιθανοτήτων. Ο στόχος είναι να δώσουμε στο ΑΙ την εντολή να επιλέξει από το μικρότερο δυνατό σύνολο λέξεων των οποίων η αθροιστική πιθανότητα να υπερβαίνει ένα καθορισμένο όριο 𝑝.
2. Μηχανισμός:
α) Κατανομή πιθανοτήτων: Κατά τη δημιουργία της επόμενης λέξης, το μοντέλο εκχωρεί πιθανότητες σε όλες τις πιθανές λέξεις του λεξιλογίου.
β) Αθροιστική πιθανότητα: Στη συνέχεια, οι λέξεις ταξινομούνται με βάση τις πιθανότητές τους με φθίνουσα σειρά. Ξεκινώντας από την κορυφή, οι λέξεις προστίθενται σε μια λίστα υποψηφίων έως ότου η αθροιστική τους πιθανότητα υπερβεί το καθορισμένο όριο 𝑝
γ) Δειγματοληψία: Η επόμενη λέξη λαμβάνεται δειγματοληπτικά από αυτήν τη μειωμένη λίστα υποψηφίων.
3. Παράμετρος 𝑝:
α) Χαμηλότερες τιμές (π.χ. 𝑝 = 0.1): Αυτό σημαίνει ότι λαμβάνονται υπόψη μόνο οι πιο πιθανές λέξεις των οποίων η αθροιστική πιθανότητα είναι 0,1. Το αποτέλεσμα θα είναι πιο ντετερμινιστικό και εστιασμένο.
β) Ανώτερες αξίες (π.χ. 𝑝 = 0,9): Λαμβάνεται υπόψη ένα μεγαλύτερο σύνολο λέξεων, επιτρέποντας πιο διαφορετικά και δημιουργικά αποτελέσματα. Η έξοδος είναι λιγότερο ντετερμινιστική και μπορεί να εξερευνήσει πιο ποικίλες δυνατότητες.
4. Σύγκριση με τη θερμοκρασία (Temperature) :
α) Θερμοκρασία (Temperature): Τροποποιεί άμεσα την κατανομή πιθανότητας κλιμακώνοντας τα logit πριν από την εφαρμογή της συνάρτησης softmax. Οι χαμηλότερες θερμοκρασίες κάνουν την κατανομή πιο ευκρινή και οι υψηλότερες θερμοκρασίες την κάνουν πιο επίπεδη.
β) Δειγματοληψία Top-p (Top-p Sampling): Λειτουργεί με περικοπή της κατανομής πιθανοτήτων με βάση τη αθροιστική πιθανότητα, εστιάζοντας στις πιο πιθανές λέξεις ενώ επιτρέπει ελεγχόμενη ποικιλομορφία.
5. Πλεονεκτήματα της δειγματοληψίας Top-p (Top-p Sampling):
α) Ελεγχόμενη ποικιλομορφία (Controlled Diversity): Ισορροπεί αποτελεσματικά μεταξύ της δημιουργίας προβλέψιμου και διαφορετικού κειμένου χωρίς την ανάγκη προσαρμογής του σχήματος της κατανομής πιθανοτήτων.
β) Ευελιξία (Flexibility): Η δειγματοληψία Top-p μπορεί να προσαρμοστεί σε διαφορετικά επίπεδα απαιτούμενης δημιουργικότητας και συνοχής με απλή προσαρμογή 𝑝,
6. Περιπτώσεις χρήσης:
α) Αφήγηση και Δημιουργική Γραφή (Storytelling and Creative Writing): Ανώτερη τιμή 𝑝 για τη διασφάλιση δημιουργικών και λιγότερο επαναλαμβανόμενων αποτελεσμάτων.
β) Δημιουργία απαντήσεων και σύνοψη (Answer Generation and Summarization): χαμηλότερη τιμή 𝑝 για να διασφαλίσουμε πιο ακριβείς και αξιόπιστες πληροφορίες.
γ) Βέλτιστη Χρήση (optimal use): Χρησιμοποιώντας τη δειγματοληψία Top-p, οι μηχανικοί εντολών μπορούν να δημιουργήσουν κείμενο που είναι συνεκτικό και ποικίλο, καθιστώντας το ένα ισχυρό εργαλείο για τη βελτίωση της απόδοσης των μοντέλων γλώσσας σε διάφορες εφαρμογές.

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου