Turing -testen er forældet. Det er tid til at bygge et nyt barometer for AI

Chefforskeren for Alexa mener, at det gamle benchmark for computing ikke længere er relevant for nutidens AI -æra.

Turing -testen er forældet. Det er tid til at bygge et nyt barometer for AI

I år er det 70 år siden Alan Turing udgav sit papir introducere begrebet Turing Test som svar på spørgsmålet, Kan maskiner tænke? Testens mål var at afgøre, om en maskine kan udvise samtaleadfærd, der ikke kan skelnes fra et menneske. Turing forudsagde, at i år 2000 ville et gennemsnitligt menneske have mindre end 70% chance for at skelne en AI fra et menneske i et efterligningsspil, hvor hvem der reagerer - et menneske eller en AI - er skjult for evaluatoren.



Hvorfor har vi ikke som industri været i stand til at nå det mål 20 år efter dette mærke? Jeg tror, ​​at målet, som Turing lægger frem, ikke er nyttigt for AI -forskere som mig selv at arbejde hen imod. Turing -testen er fyldt med begrænsninger, hvoraf nogle Turing selv diskuterede i sit seminalpapir. Da AI nu allestedsnærværende er integreret i vores telefoner, biler og hjem, er det blevet mere og mere indlysende, at folk er meget mere interesseret i, at deres interaktioner med maskiner er nyttige, sømløse og gennemsigtige - og at begrebet maskiner, der ikke kan skelnes fra et menneske, er ude af kontakt . Derfor er det tid til at trække den lære tilbage, der har tjent som inspiration i syv årtier, og sætte en ny udfordring, der inspirerer forskere og praktikere lige meget.

Turing -testen og den populære fantasi

I årene efter introduktionen fungerede Turing -testen som AI -nordstjernen for den akademiske verden. De tidligste chatbots i 60’erne og 70’erne, ELIZA og PARRY, var centreret omkring bestået testen. Så sent som i 2014 erklærede chatbot Eugene Goostman, at den havde bestået Turing -testen ved at narre 33% af dommerne, at den var menneskelig. Men som andre har påpeget, er baren med at narre 30% af dommerne vilkårlig, og selv da føltes sejren forældet til nogle .

Alligevel fortsætter Turing -testen med at drive populær fantasi. OpenAI’s Generative Pre-training Transformer 3 (GPT-3) sprogmodel er sat i gang overskrifter om dets potentiale til at slå Turing -testen. På samme måde bliver jeg stadig spurgt af journalister, virksomhedsledere og andre observatører: Hvornår vil Alexa bestå Turing -testen? Turing -testen er bestemt en måde at måle Alexas intelligens på - men er det konsekvent og relevant at måle Alexas intelligens på den måde?

For at besvare det spørgsmål, lad os gå tilbage til, da Turing første gang lagde sit speciale. I 1950 havde den første kommercielle computer endnu ikke solgt , grundarbejde til fiberoptiske kabler ville ikke blive offentliggjort i yderligere fire år, og AI-området var ikke formelt blevet etableret-det ville komme i 1956. Vi har nu 100.000 gange mere computerkraft på vores telefoner end Apollo 11, og sammen med cloud computing og høj båndbredde-forbindelse kan AI'er nu træffe beslutninger baseret på enorme datamængder inden for få sekunder.

sænker afskaffelsen af ​​afdelingsledere 2016

Mens Turings originale vision fortsat er inspirerende, er fortolkningen af ​​hans test som det ultimative mærke for AI's fremskridt begrænset af den æra, da den blev introduceret. For det første reducerer Turing-testen alt andet end AIs maskinlignende egenskaber ved hurtig beregning og informationsopslag, funktioner, der er nogle af moderne AI's mest effektive. Vægten på at narre mennesker betyder, at for at en AI skal bestå Turings test, skal den injicere pauser i svar på spørgsmål som f.eks. Ved du, hvad der er terningens rod i 3434756? eller, hvor langt er Seattle fra Boston? I virkeligheden kender AI disse svar med det samme, og det er ikke den bedste brug af sine færdigheder at stoppe op for at få sine svar til at lyde mere menneskelige. Desuden tager Turing -testen ikke højde for AIs stigende evne til at bruge sensorer til at høre, se og mærke omverdenen. I stedet er det begrænset til tekst.

For at gøre AI mere nyttig i dag skal disse systemer udføre vores daglige opgaver effektivt. Hvis du beder din AI -assistent om at slukke for dine garagelys, leder du ikke efter en dialog. I stedet vil du have, at den opfylder denne anmodning og underretter dig med en simpel bekræftelse, ok eller færdig. Selv når du går i en omfattende dialog med en AI -assistent om et trendartet emne eller får en historie læst for dit barn, vil du stadig gerne vide, at det er en AI og ikke et menneske. Faktisk udgør det en reel risiko at narre brugerne ved at foregive at være mennesker. Forestil dig de dystopiske muligheder, som vi allerede er begyndt at se med bots, der sår misinformation og fremkomsten af ​​dybe forfalskninger.

Nye meningsfulde udfordringer for AI

I stedet for at være besat af at gøre AI'er, der ikke kan skelnes fra mennesker, bør vores ambition være at opbygge AI'er, der øger menneskelig intelligens og forbedrer vores daglige liv på en måde, der er retfærdig og inklusiv. Et værdigt underliggende mål er, at AI'er udviser menneskelignende egenskaber ved intelligens-herunder sund fornuft, selvovervågning og sprogfærdigheder-og kombinerer maskinlignende effektivitet som hurtige søgninger, hukommelsesgenkaldelse og udførelse af opgaver på dine vegne. Slutresultatet er at lære og gennemføre en række opgaver og tilpasse sig nye situationer, langt ud over hvad en almindelig person kan.

Dette fokus informerer aktuel forskning om områder af AI, der virkelig betyder noget-sensorisk forståelse, samtale, bred og dyb viden, effektiv læring, begrundelse for beslutningstagning og eliminering af upassende skævheder eller fordomme (dvs. retfærdighed). Fremskridt på disse områder kan måles på forskellige måder. En tilgang er at bryde en udfordring i opgaver. For eksempel Kaggle’s Abstraktion og ræsonnement udfordring fokuserer på at løse ræsonnementsopgaver, AI ikke har set før. En anden tilgang er at designe en stor udfordring i den virkelige verden til interaktion mellem mennesker og computere som f.eks Alexa Prize Socialbot Grand Challenge - en konkurrence fokuseret på samtale -AI for universitetsstuderende.

Da vi lancerede Alexa -prisen i 2016, havde vi faktisk intens debat om, hvordan de konkurrerende socialbots skulle vurderes. Forsøger vi at overbevise folk om, at socialboten er et menneske og implementerer en version af Turing -testen? Eller forsøger vi at gøre AI værdig til at tale naturligt for at fremme læring, levere underholdning eller bare en velkommen distraktion?

historie om ikke træde på mig flag

Vi landede på en rubrik, der beder socialbots om at snakke sammenhængende og engagerende i 20 minutter med mennesker om en lang række populære emner, herunder underholdning, sport, politik og teknologi. I udviklingsfaserne op til finalen scorer kunderne robotterne på, om de vil tale med botsne igen. I finalen vurderer uafhængige menneskelige dommere for sammenhæng og naturlighed og tildeler en score på en 5-trins skala-og hvis nogen af ​​de sociale bots konverterer i en gennemsnitlig varighed på 20 minutter og scorer 4,0 eller højere, så vil den opfylde grand udfordring. Selvom den store udfordring endnu ikke er imødekommet, styrer denne metode AI-udvikling, der har menneskelignende samtaleevner drevet af dybe læringsbaserede neurale metoder. Det prioriterer metoder, der giver AI'er mulighed for at udvise humor og empati, hvor det er relevant, alt uden at foregive at være et menneske.

Den brede anvendelse af AI som Alexa i vores daglige liv er endnu en utrolig mulighed for at måle fremskridt inden for AI. Selvom disse AI-tjenester er afhængige af menneskelignende samtaleevner for at gennemføre både enkle transaktioner (f.eks. Indstilling af en alarm) og komplekse opgaver (f.eks. Planlægning af en weekend), går de ud over konversations-AI til Ambient AI-hvor AI svarer dine anmoder, når du har brug for det, forudser dine behov og falmer i baggrunden, når du ikke gør det. For eksempel kan Alexa registrere lyden af ​​glasbrud og advare dig om at tage handling. Hvis du indstiller en alarm, mens du går i seng, foreslår det at slukke et tilsluttet lys nedenunder, der har været tændt. Et andet aspekt ved sådanne AI'er er, at de skal være ekspert i et stort, stadigt stigende antal opgaver, hvilket kun er muligt med mere generaliseret læringsevne i stedet for opgavespecifik intelligens. Derfor er nytten af ​​AI -tjenester med deres samtale- og proaktive assistanceevner på omgivende enheder i det næste årti og fremover en værdig test.

Intet af dette er at nedgøre Turings oprindelige vision - Turings efterligningsspil blev designet som et tankeeksperiment, ikke som den ultimative test for nyttig AI. Nu er det imidlertid på tide at fjerne Turing -testen og blive inspireret af Alan Turings dristige vision om at fremskynde fremskridt med at bygge AI'er, der er designet til at hjælpe mennesker.


Rohit Prasad er vicepræsident og hovedforsker for Alexa på Amazon.