Voor werknemers die machine learning-modellen gebruiken om beslissingen te nemen, is het niet altijd een gemakkelijke taak om te weten wanneer ze de voorspellingen van een model moeten vertrouwen, vooral omdat deze modellen vaak zo complex zijn dat hun innerlijke werking een mysterie blijft.
Gebruikers gebruiken soms een techniek, de zogenaamde selectieve regressie, waarbij het model het betrouwbaarheidsniveau voor elke voorspelling schat en voorspellingen verwerpt wanneer de betrouwbaarheid ervan te laag is. Vervolgens kan een mens die gevallen onderzoeken, aanvullende informatie verzamelen en handmatig een beslissing nemen.
Maar hoewel is aangetoond dat selectieve regressie de algehele prestaties van een model verbetert, hebben onderzoekers van MIT en het MIT-IBM Watson AI Lab ontdekt dat de techniek het tegenovergestelde effect kan hebben op ondervertegenwoordigde groepen mensen in een dataset. Naarmate het vertrouwen van het model toeneemt met selectieve regressie, neemt ook de kans op het maken van de juiste voorspelling toe, maar dit gebeurt niet altijd voor alle subgroepen.
Een model dat bijvoorbeeld leninggoedkeuringen suggereert, maakt gemiddeld minder fouten, maar maakt mogelijk meer verkeerde voorspellingen voor zwarte of vrouwelijke aanvragers. Een reden waarom dit kan gebeuren, is het feit dat de betrouwbaarheidsmaatstaf van het model is getraind met behulp van oververtegenwoordigde groepen en mogelijk niet nauwkeurig is voor deze ondervertegenwoordigde groepen.
Nadat ze dit probleem hadden geïdentificeerd, ontwikkelden de MIT-onderzoekers twee algoritmen die het probleem kunnen verhelpen. Met behulp van real-world datasets laten ze zien dat de algoritmen prestatieverschillen verminderen die gemarginaliseerde subgroepen hadden getroffen.
“Uiteindelijk gaat het erom intelligenter te zijn over welke monsters je aan een mens overhandigt om mee om te gaan. In plaats van alleen een breed foutenpercentage voor het model te minimaliseren, willen we ervoor zorgen dat er op een slimme manier rekening wordt gehouden met het foutenpercentage tussen groepen”, zegt senior MIT-auteur Greg Wornell, de Sumitomo Professor in Engineering bij de afdeling Electrical Engineering. en Computer Science (EECS), die leiding geeft aan het Signals, Information, and Algorithms Laboratory in het Research Laboratory of Electronics (RLE) en lid is van het MIT-IBM Watson AI Lab.
Naast Wornell op het papier zijn mede-hoofdauteurs Abhin Shah, een EECS-afgestudeerde student, en Yuheng Bu, een postdoc in RLE; evenals Joshua Ka-Wing Lee SM ’17, ScD ’21 en Subhro Das, Rameswar Panda en Prasanna Sattigeri, onderzoeksmedewerkers bij het MIT-IBM Watson AI Lab. De paper wordt deze maand gepresenteerd op de International Conference on Machine Learning.
Voorspellen of niet voorspellen
Regressie is een techniek die de relatie tussen een afhankelijke variabele en onafhankelijke variabelen schat. Bij machine learning wordt regressieanalyse vaak gebruikt voor voorspellingstaken, zoals het voorspellen van de prijs van een huis gezien de kenmerken ervan (aantal slaapkamers, vierkante meters, enz.) Met selectieve regressie kan het machine learning-model een van de twee keuzes maken voor elke invoer — het kan een voorspelling doen of zich onthouden van een voorspelling als het niet genoeg vertrouwen heeft in zijn beslissing.
Wanneer het model zich onthoudt, vermindert het de fractie monsters waarop het voorspellingen doet, wat bekend staat als dekking. Door alleen voorspellingen te doen over inputs waar het veel vertrouwen in heeft, zouden de algehele prestaties van het model moeten verbeteren. Maar dit kan ook de vooroordelen versterken die in een dataset bestaan, die optreden wanneer het model niet over voldoende gegevens van bepaalde subgroepen beschikt. Dit kan leiden tot fouten of slechte voorspellingen voor ondervertegenwoordigde personen.
De MIT-onderzoekers wilden ervoor zorgen dat, naarmate het algemene foutenpercentage voor het model verbetert met selectieve regressie, de prestaties voor elke subgroep ook verbeteren. Ze noemen dit monotoon selectief risico.
“Het was een uitdaging om de juiste notie van rechtvaardigheid te bedenken voor dit specifieke probleem. Maar door dit criterium, monotoon selectief risico, te handhaven, kunnen we ervoor zorgen dat de prestaties van het model in alle subgroepen daadwerkelijk beter worden als je de dekking vermindert”, zegt Shah.
Focus op eerlijkheid
Het team ontwikkelde twee neurale netwerkalgoritmen die deze eerlijkheidscriteria opleggen om het probleem op te lossen.
Eén algoritme garandeert dat de kenmerken die het model gebruikt om voorspellingen te doen alle informatie bevatten over de gevoelige attributen in de dataset, zoals ras en geslacht, die relevant is voor de doelvariabele van belang. Gevoelige kenmerken zijn kenmerken die mogelijk niet worden gebruikt voor beslissingen, vaak vanwege wetten of organisatiebeleid. Het tweede algoritme maakt gebruik van een kalibratietechniek om ervoor te zorgen dat het model dezelfde voorspelling doet voor een invoer, ongeacht of er gevoelige attributen aan die invoer worden toegevoegd.
De onderzoekers hebben deze algoritmen getest door ze toe te passen op datasets uit de echte wereld die kunnen worden gebruikt bij besluitvorming met hoge inzetten. Eén, een verzekeringsgegevensset, wordt gebruikt om de totale jaarlijkse medische kosten die aan patiënten in rekening worden gebracht te voorspellen met behulp van demografische statistieken; een andere, een misdaaddataset, wordt gebruikt om het aantal geweldsmisdrijven in gemeenschappen te voorspellen met behulp van sociaaleconomische informatie. Beide datasets bevatten gevoelige attributen voor individuen.
Toen ze hun algoritmen implementeerden bovenop een standaard machine-learningmethode voor selectieve regressie, waren ze in staat om ongelijkheden te verminderen door lagere foutenpercentages te bereiken voor de minderheidssubgroepen in elke dataset. Bovendien werd dit bereikt zonder een significante invloed op het totale foutenpercentage te hebben.
“We zien dat als we bepaalde beperkingen niet opleggen, in gevallen waarin het model echt vertrouwen heeft, het in feite meer fouten kan maken, wat in sommige toepassingen, zoals de gezondheidszorg, erg kostbaar kan zijn. Dus als we de trend omkeren en het intuïtiever maken, zullen we veel van deze fouten opvangen. Een belangrijk doel van dit werk is om te voorkomen dat fouten stilletjes onopgemerkt blijven”, zegt Sattigeri.
De onderzoekers zijn van plan hun oplossingen toe te passen op andere toepassingen, zoals het voorspellen van huizenprijzen, GPA voor studenten of de rente op leningen, om te zien of de algoritmen voor die taken moeten worden gekalibreerd, zegt Shah. Ze willen ook technieken onderzoeken die minder gevoelige informatie gebruiken tijdens het modeltrainingsproces om privacykwesties te voorkomen.
En ze hopen de betrouwbaarheidsschattingen bij selectieve regressie te verbeteren om situaties te voorkomen waarin het vertrouwen van het model laag is, maar de voorspelling correct is. Dit zou de werklast van mensen kunnen verminderen en het besluitvormingsproces verder kunnen stroomlijnen, zegt Sattigeri.
Dit onderzoek werd gedeeltelijk gefinancierd door het MIT-IBM Watson AI Lab en de aangesloten bedrijven Boston Scientific, Samsung en Wells Fargo, en door de National Science Foundation.
.
0 Comments