Google Translate's kønsproblem (og Bing Translate's og Systrans ...)

Google Translate og andre populære oversættelsesplatforme giver ofte utilsigtet sexistiske oversættelser, hvor bl.a. læger er mænd og lærere er kvinder. Grunden til det har at gøre med en kompleks blanding af algoritmer, lingvistik og kildematerialer.

Google Translate

Google Translate er verdens mest populære weboversættelsesplatform, men en forsker ved Stanford University siger, at den ikke rigtigt forstår køn og køn. Londa Schiebinger, der driver Stanford's Kønnede innovationer projekt, siger Googles valg af kildedatabaser forårsager en statistisk bias mod mandlige substantiver og verber i oversættelse. I et papir om behandling af køn og naturligt sprog , Schiebinger giver overbevisende beviser for, at de kildetekster, der bruges sammen med Googles oversættelsesalgoritmer, fører til utilsigtet sexisme.

Maskinoversættelse og køn



I en peer-reviewed casestudie, der blev offentliggjort i 2013, illustrerede Schiebinger, at Google Translate har en tendens til at vende kønsneutrale engelske ord (f.eks. det, eller erhvervsnavne som f.eks professor og læge ) til mandlig form på andre sprog, når ordet er oversat. Visse kønsneutrale engelske ord oversættes dog til kvindelig form. . . men kun når de overholder visse kønsstereotyper. For eksempel de kønsneutrale engelske udtryk en tiltalt og en sygeplejerske oversætte til tysk som en tiltalt og en sygeplejerske. Tiltalte oversættes som mand, men amme auto-oversætter som kvinde.

Hvor Google Translate virkelig snubler op, hævder Schiebinger, er i mangel af kontekst for kønsneutrale ord på andre sprog, når det oversættes til engelsk. Schiebinger kørte en artikel om sit arbejde i den spansksprogede avis Landet til engelsk via Google Translate og rivaliserende platform Systran. Både Google Translate og Systran oversatte de kønsneutrale spanske ord suyo og terninger som hans, og han sagde, på trods af at Schiebinger er kvinde.



Denne slags ord rejser specifikke problemer i Bing Translate, Google Translate, Systran og andre populære maskinoversættelsesplatforme. Googles ingeniører, der arbejder på Translate, fortalte Co.Labs, at oversættelse af alle ord, inklusive kønnede, primært vejes af statistiske mønstre i oversatte dokumentpar fundet online. Fordi terninger kan oversætte som enten han sagde eller hun sagde, ser Oversættelses algoritmer på kombinationer af terninger i forbindelse med naboord for at se, hvad de hyppigste oversættelser af disse kombinationer er. Hvis terninger gengives oftere i de oversættelser, Google opnår, som han siger, så vil Translate normalt gengive det som en mand frem for en kvinde. Derudover tilføjede Google Translate -teamet, at deres platform kun bruger individuelle sætninger til kontekst. Kønnede substantiver eller verber i nabosætninger vejes ikke med hensyn til at etablere kontekst.

Kildemateriale, kulturel kontekst og køn



Schiebinger fortalte Co.Labs, at projektet udviklede sig fra et papir skrevet af en studerende, der arbejdede med naturlige sprogbehandlingsspørgsmål. I juli 2012 blev der afholdt en workshop på Stanford University med eksterne forskere, der blev forvandlet, efter peer review, til maskinoversættelsespapiret.

Google Translate, der står over for det næsten umulige mål om præcist at oversætte verdens sprog i realtid, har stået over for kønsproblemer i årevis. Til Googles tilpasning justerer Mountain View regelmæssigt Google Translate's algoritmer for at rette unøjagtigheder i oversættelsen. Sprogoversættelsesalgoritmer er berygtet vanskelige. Ingeniører hos Google, Bing, Systran og andre virksomheder behøver ikke kun at tage grammatik i betragtning - de skal tage hensyn til kontekst, undertekst, underforståede betydninger, kulturelle finurligheder og en million andre subjektive faktorer. . . og derefter vende dem til kode.

Men ikke desto mindre findes disse unøjagtigheder - især for køn. I et tilfælde sidste år opdagede brugerne, at oversættelse af mænd er mænd, og mænd bør rense køkkenet til tysk blev mænd er mænd, og kvinder bør rense køkkenet - hvilket betyder at mænd er mænd og Kvinder skal rengøre køkkenet. En anden tysksproget Google Translate-bruger blev fundet jobbias på flere sprog -de kønsneturale engelske sprogtermer Fransk lærer, vuggestue lærer, og madlavningslærer alle dukkede op i Google Translate’s franske og tyske udgaver i feminin form, mens ingeniør, læge, journalist og præsident blev oversat til den mandlige form.



Nataly Kelly, forfatter til Fundet i oversættelse: Hvordan sprog former vores liv og transformerer verden, hvis firma tilbyder sprogteknologiske produkter, fortalte Co.Labs, at en mandlig bias i maskinoversættelse er ekstremt almindelig. Hvis du bruger en statistisk tilgang til at producere oversættelsen, vil systemet udvinde alle tidligere oversættelser og vil tjene den mest sandsynlige kandidat til en korrekt oversættelse baseret på frekvens. I betragtning af at mandlige pronomener har været overrepræsenteret gennem historien i de fleste sprog og kulturer, har maskinoversættelse en tendens til at afspejle denne historiske kønsforstyrrelse, sagde Kelly.

Resultaterne kan være meget forvirrende, endda unøjagtige. For eksempel i Google Oversæt, hvis du oversætter ingeniør til spansk, kommer det ud som det maskuline ingeniør, men hvis du sætter ind kvindelig ingeniør, du får kvindelig kønsingeniør, hvilket betyder noget lignende en mandlig ingeniør af det feminine køn. Det lyder mildest talt mærkeligt på spansk! Hvis du skriver kvindelig ingeniør til Bing Translate, du får ingeniør, hvilket er teknisk korrekt. Men alligevel skal du angive kvinde for at producere et feminint resultat. Du behøver ikke at angive mandlig ingeniør at få ingeniør. Du behøver kun at indtaste ingeniør. [Der er] en iboende kønsforstyrrelse i de fleste maskinoversættelsessystemer.

Corpusets statistiske karakter

Grunden til at dette sker er statistisk. På alle sprog, som Google Translate opererer i, behandler algoritmer mening, grammatik og kontekst gennem et stort antal tidligere uploadede dokumenter. Disse dokumenter, som varierer fra sprog til sprog, afgør, hvordan Google Translate rent faktisk fungerer. Hvis kildemateriale, der bruges til oversættelser, har en aggregeret skævhed i forhold til, at et køn foretrækkes frem for et andet, vil det afspejles i oversættelser modtaget af brugerne.



Når en bruger på Google Grupper stillede spørgsmålstegn mandlig kønsforstyrrelse i hebraiske oversættelser i 2010 bemærkede Googles Xi Cheng, at Google Translate er fuldt automatiseret med maskine; ingen pålægger eksplicit regler; oversættelsen genereres i henhold til den statistiske karakter af det korpus, vi har.

Ifølge Schiebinger bruger maskinoversættelsessystemer som Google Translate to separate slags korpuser. Et parallelt korpus med tekst på ét sprog, der bruges til at sammenligne en oversættelse til et andet sprog, mens et stort ensproget korpus i det målsprog, der oversættes til, bruges til at bestemme grammatik og ordplacering. Hvis maskuline eller feminine ordformer systematisk favoriseres i det anvendte korpus, får det algoritmen til at oversætte til fordel for det pågældende køn.

Maskinoversættelse afhænger i sidste ende af, at oversættere og lingvister giver kontekst til både algoritmer og det kildemateriale, de bruger. Google Translate, Bing Translate og Systran gør alle et fantastisk stykke arbejde med at levere øjeblikkelige oversættelser til et svimlende udvalg af sprog. Udfordringen for oversættelsesplatformudviklere er, hvordan de yderligere kan forfine deres produkt og øge nøjagtigheden - noget vi vil se mere til i fremtiden.

[ Lærer billede: Everett Collection via Shutterstock ]