Ένας ιδιοκτήτης καταστήματος ramen στον κυβερνοπάνκ απέδωσε ψηφιακά με φωνή τεχνητής νοημοσύνης που ανταποκρίνεται στην ανθρώπινη συμβολή.
Εικόνα: Nvidia

Στην Computex 2023 στην Ταϊπέι, ο Διευθύνων Σύμβουλος της Nvidia, Jensen Huang, μόλις έδωσε στον κόσμο μια γεύση για το πώς θα μπορούσε να είναι όταν τα παιχνίδια και η τεχνητή νοημοσύνη συγκρούονται – με μια γραφικά συναρπαστική απόδοση ενός καταστήματος ramen στον κυβερνοπάνκ όπου μπορείτε πραγματικά να μιλήσετε με τον ιδιοκτήτη.

Σοβαρά, αντί να κάνετε κλικ στις επιλογές διαλόγου, φαντάζεται ότι θα μπορούσατε να κρατήσετε πατημένο ένα κουμπί, απλά πες κάτι με τη δική σου φωνή, και λάβετε απάντηση από έναν χαρακτήρα βιντεοπαιχνιδιού. Η Nvidia το αποκαλεί «μια ματιά στο μέλλον των παιχνιδιών».

Δυστυχώς, ο πραγματικός διάλογος αφήνει πολλά περιθώρια – ίσως δοκιμάσετε το GPT-4 ή το Sudowrite την επόμενη φορά, Nvidia;

Εδώ είναι ολόκληρη η συνομιλία που έγραψα βιαστικά:

Παίκτης: Hey Jin, πώς είσαι;

Jin: Δυστυχώς όχι τόσο καλό.

Πώς κι έτσι?

Ανησυχώ για το έγκλημα εδώ γύρω. Έχει γίνει άσχημα τελευταία. Το κατάστημά μου με ramen πιάστηκε στα διασταυρούμενα πυρά.

Μπορώ να βοηθήσω?

Αν θέλετε να κάνετε κάτι για αυτό, έχω ακούσει φήμες ότι ο ισχυρός άρχοντας του εγκλήματος Kumon Aoki προκαλεί κάθε είδους χάος στην πόλη. Μπορεί να είναι η ρίζα αυτής της βίας.

Θα του μιλήσω, που να τον βρω;

Έχω ακούσει ότι κάνει παρέα στα υπόγεια κλαμπ μάχης στην ανατολική πλευρά της πόλης. Δοκιμάστε εκεί.

Εντάξει, θα πάω.

Πρόσεχε, Κάι.

Παρακολουθώντας ένα μόνο βίντεο μιας μεμονωμένης συνομιλίας, είναι δύσκολο να καταλάβετε πώς αυτό είναι καλύτερο από το να επιλέξετε από ένα δέντρο διαλόγου NPC — αλλά το εντυπωσιακό μέρος είναι ότι η γενετική τεχνητή νοημοσύνη αντιδρά σε φυσικός λόγος. Ας ελπίσουμε ότι η Nvidia θα κυκλοφορήσει το demo, ώστε να το δοκιμάσουμε μόνοι μας και να έχουμε ριζικά διαφορετικά αποτελέσματα.


Στιγμιότυπο από τον Sean Hollister / The Verge

Το demo δημιουργήθηκε από τη Nvidia και τον συνεργάτη Convai για να βοηθήσει στην προώθηση των εργαλείων που χρησιμοποιήθηκαν για τη δημιουργία του — συγκεκριμένα μια σουίτα ενδιάμεσου λογισμικού που ονομάζεται Nvidia ACE (Avatar Cloud Engine) για παιχνίδια που μπορούν να εκτελούνται τόσο τοπικά όσο και στο cloud. Ολόκληρη η σουίτα ACE περιλαμβάνει τα εργαλεία NeMo της εταιρείας για την ανάπτυξη μεγάλων μοντέλων γλώσσας (LLM), τη μετατροπή ομιλίας σε κείμενο και τη μετατροπή κειμένου σε ομιλία Riva, μεταξύ άλλων.

Η επίδειξη χρησιμοποιεί περισσότερα από αυτά, φυσικά — είναι ενσωματωμένη στο Unreal Engine 5 με πλήθος ακτίνων… και είναι οπτικά εκπληκτικό σε σημείο που το τμήμα του chatbot μου φαίνεται αθώο συγκριτικά. Σε αυτό το σημείο, έχουμε απλώς δει πολύ πιο συναρπαστικούς διαλόγους από chatbots, ακόμη και όσο τετριμμένο και παράγωγο μπορεί να είναι μερικές φορές.


Στιγμιότυπο από τον Sean Hollister / The Verge
Κάντε κλικ για μεγαλύτερο στιγμιότυπο οθόνης.

Σε μια προκαταρκτική ενημέρωση του Computex, ο αντιπρόεδρος της πλατφόρμας GeForce της Nvidia, Jason Paul, μου είπε ότι ναι, η τεχνολογία μπορεί να κλιμακωθεί σε περισσότερους από έναν χαρακτήρες κάθε φορά και θεωρητικά θα μπορούσε ακόμη και να αφήσει τους NPC να μιλήσουν μεταξύ τους — αλλά παραδέχτηκε ότι στην πραγματικότητα δεν είχε μιλήσει είδα ότι δοκιμάστηκε.

Δεν είναι σαφές εάν κάποιος προγραμματιστής θα αγκαλιάσει ολόκληρο το κιτ εργαλείων ACE με τον τρόπο που επιχειρεί η επίδειξη, αλλά STALKER 2 Η καρδιά του Τσερνομπίλ και Fort Solis θα χρησιμοποιήσει το μέρος που η Nvidia αποκαλεί “Omniverse Audio2Face”, το οποίο προσπαθεί να αντιστοιχίσει το κινούμενο σχέδιο προσώπου ενός τρισδιάστατου χαρακτήρα με την ομιλία του φωνητικού ηθοποιού.

Διόρθωση, 11:25 ET: Ήταν ο Jason Paul της Nvidia, όχι ο Rev Lebaredian, που απάντησε στην ερώτησή μου. Λυπάμαι για το λάθος.