Het onderzoeks- en vooruitgangsteam van Meta AI heeft onlangs een neuraal netwerkgebaseerd systeem ontwikkeld, genaamd SIDE, dat in staat is om miljoenen duizenden Wikipedia-citaten tegelijk te scannen en te controleren of ze de bijbehorende inhoud echt ondersteunen.

Wikipedia is een meertalige gratis online encyclopedie, geschreven en onderhouden door vrijwilligers door middel van open samenwerking en een op wiki gebaseerd bewerkingssysteem. Wikipedia heeft zo’n 6,5 miljoen artikelen. Wikipedia is crowdsourced, dus het vereist meestal dat de feiten worden bevestigd; citaten, controversiële uitspraken en controversieel materiaal over levende mensen moeten een bronvermelding bevatten. Vrijwilligers controleren de voetnoten van Wikipedia nog eens, maar aangezien de site blijft groeien, is het een uitdaging om gelijke tred te houden met de meer dan 17.000 nieuwe artikelen die elke maand worden toegevoegd. Lezers vragen zich vaak af hoe accuraat de Wikipedia-vermeldingen zijn die ze lezen. De menselijke redacteuren hebben hulp van de technologie nodig om gebrabbel of uitspraken zonder citaten te identificeren, maar begrijpen dat het bepalen of een bron een claim ondersteunt een complexe taak is voor AI, omdat het een diepgaand begrip nodig heeft om een ​​nauwkeurige analyse uit te voeren.

Voor dit doel creëerde het Meta AI-onderzoeksteam een ​​nieuwe dataset van 134 miljoen openbare webpagina’s (opgesplitst in 906 miljoen passages van elk 100 tokens), een orde van grootte meer gegevens dan de kennisbronnen die in het huidige NLP-onderzoek worden beschouwd en aanzienlijk ingewikkelder dan ooit gebruikt voor deze spreuk van onderzoek. De op één na grootste dataset in termen van passages/documenten is de Internet Augmented Dialog-generator, die gegevens haalt uit 250 miljoen passages en 109 miljoen documenten.

Deze nieuwe dataset is de kennisbron van het neurale netwerkmodel dat de citaten vindt die irrelevant lijken en suggereert een meer toepasselijke brongebeurtenis, verwijzend naar de specifieke passage die de claim ondersteunt. Natuurlijke taalbegrip (NLU) technieken worden gebruikt om de taken uit te voeren waarmee het systeem een ​​citaat kan evalueren. In NLU vertaalt een model menselijke zinnen (of woorden, zinnen of alinea’s) in complexe wiskundige representaties. De tool is ontworpen om deze representaties te vergelijken om te bepalen of de ene stelling de andere ondersteunt of tegenspreekt.

De nieuwe dataset dient ook als een van de belangrijkste componenten van het systeem: Sphere, een ophaalbibliotheek op webschaal en al open source.

De beslissingsstroom van SIDE, van een claim op Wikipedia tot een suggestie voor een nieuwe bronvermelding, werkt als volgt:

SIDE-workflow. Van papier: de verifieerbaarheid van Wikipedia verbeteren met AI

De claim wordt verzonden naar de Sphere Retrieval Engine, die een lijst met potentiële kandidaat-documenten uit het Sphere-corpus produceert. Het sparse retrieval-subsysteem gebruikt een seq2seq-model om de citatiecontext in zoektekst te vertalen en matcht vervolgens de resulterende query (een schaarse woordenreeksvector) op een BM25-index van Sphere. Het seq2seq-model is getraind met behulp van gegevens van Wikipedia zelf: de doelquery’s zijn ingesteld als webpaginatitels van bestaande Wikipedia-citaten. Het dichte ophaalsubsysteem is een neuraal netwerk dat leert van Wikipedia-gegevens om de citatiecontext te coderen in een dichte vraagvector. Deze vector wordt vervolgens vergeleken met de vectorcoderingen van alle passages in Sphere en de dichtstbijzijnde worden geretourneerd.

De verificatie-engine rangschikt vervolgens de kandidaat-documenten en het originele citaat met verwijzing naar de claim. Een neuraal netwerk neemt de claim en een document als input en voorspelt hoe goed het de claim ondersteunt. Vanwege efficiëntieredenen werkt het op een per passage-niveau en berekent het de verificatiescore van een document als het maximum over de scores per passage. De verificatiescores worden berekend door een verfijnde BERT-transformator die de aaneengeschakelde claim en passage als invoer gebruikt.

Met andere woorden, het model creëert en vergelijkt wiskundige representaties van de betekenissen van hele uitspraken in plaats van van individuele woorden. Omdat webpagina’s lange stukken tekst kunnen bevatten, beoordelen de modellen inhoud in brokken en houden ze alleen rekening met de meest relevante passage wanneer ze beslissen of ze een URL aanbevelen.

De indices geven potentiële bronnen door aan een evidence-ranking-model, dat de nieuwe tekst vergelijkt met het oorspronkelijke citaat. Met behulp van fijnmazige taalbegrip rangschikt het model de geciteerde bron en de opgehaalde alternatieven op basis van de waarschijnlijkheid dat ze de bewering ondersteunen. Als het oorspronkelijke citaat niet boven de kandidaatdocumenten staat, wordt een nieuw citaat uit de opgehaalde kandidaten voorgesteld.

Sphere werd getest op de Knowledge Intensive Language Tasks-benchmark en overtrof de stand van zaken op twee.

Een computersysteem dat taal op menselijk niveau begrijpt, is nog niet ontworpen, maar projecten zoals deze, die algoritmen leren om dicht materiaal met een steeds hogere mate van verfijning te begrijpen, helpen AI om de echte wereld te begrijpen. Het onderzoeks- en vooruitgangsteam van Meta AI zegt dat het doel van dit werk is om een ​​platform te bouwen om Wikipedia-editors te helpen systematisch citatieproblemen op te sporen en de citatie snel te corrigeren of de inhoud van het overeenkomstige artikel op grote schaal te corrigeren. SIDE is open source en kan hier worden getest.

.


0 Comments

Leave a Reply

Avatar placeholder

Your email address will not be published. Required fields are marked *