Förenklad Variansinflationens faktor | VIF vid multi-kolinearitet
Innehållsförteckning
-
Introduktion
- Välkomsthälsning
- Syfte med videon
-
Vad är variansinflationens faktor (VIF)?
- Begreppet varians
- Grundläggande förståelse för R-tal
-
Enkel matematik
- Förhållandet mellan variabler
-
Förklaring av Variansinflationens faktor
- Korrelation mellan oberoende variabler
- Exempel med anställningsdata
- Tillämpning av VIF i regression
- Formeln för att beräkna VIF-värde
-
Tolkningsbarhet av VIF-värden
- Skala för tolkning
- Tröskelvärde för att ta bort variabler
-
Avslutning och sammanfattning
👉 Vad är Variansinflationens faktor (VIF)?
Variansinflationens faktor (VIF) är en mätning som används för att identifiera oberoende variabler inom en dataset som är högt korrelerade med varandra. Genom att analysera VIF-värden kan vi avgöra om en specifik variabel är onödig eller redundant för att förklara variationen i datat. Genom att förstå och tillämpa VIF kan vi förbättra kvaliteten på våra statistiska modeller och göra mer precisa analyser.
Introduktion
Välkommen till Unfold Data Science, mina vänner! Jag heter Aman och jag är en datavetenskapare. För några dagar sedan släppte jag en videofilm om ämnet "Multi-Kolinearitet", och några av er kommenterade och sa att jag missade ett ämne i den videon. Det ämnet kallas "Variansinflationens faktor". Först och främst, ett stort tack till er alla. När ni skriver sådana kommentarer ger det mig självförtroende att ni faktiskt lär er det jag försöker förmedla. Ni deltar i den interaktiva resan hos Unfold Data Science. Stort tack till er alla.
I den här videon kommer vi att ta upp detta ämne och förstå, på ett mycket enkelt sätt, vad VIF är, vad det används till, var man använder det och hur man pratar om VIF under en datavetenskaplig intervju. Men innan vi går in på videon, vill jag än en gång be er att, om ni inte redan ha gjort det, vänligen prenumerera på kanalen. Det skulle hjälpa mig mycket. Så låt oss fortsätta.
👉 Vad är Variansinflationens faktor (VIF)?
Den viktigaste nyckeltermen här är "varians". Vad betyder "varians"? När vi anpassar en regressionsmodell eller vilken modell som helst, försöker vi fånga datats variation. Om vi kan fånga datats variation kan vi lära oss mönstret i datat. Detta är på en hög nivå. För att förstå VIF måste du förstå två saker: (1) Vad är R-tal och (2) Enkel matematik.
För detta ämne kommer jag bara att ge er en övergripande förståelse av vad R-tal är. Detta är helt enkelt ett mått eller ett nummer som berättar hur bra din modell passar. R-tal finns i området från 0 till 1. Om det är närmare 1, till exempel 0,92, betraktas din modell som en bra modell. Om det är långt ifrån 1 anses din modell vara en mindre bra modell. Så det ger dig en idé om hur exakt din modell är. Jag rekommenderar starkt att ni tittar på den videon som jag har länkat här om ni är förvirrade om R-tal. Det är ett mycket viktigt grundläggande ämne och kan ge en dålig intryck i en intervju om ni inte kan förklara R-tal ordentligt. Så se till att ni förstår allt om R-tal på en övergripande nivå. Det handlar helt enkelt om noggrannheten för en regressionsmodell. Det är en sak ni måste veta för att förstå VIF, och den andra saken är enkel matematik. När jag säger "x dividerat med y" och håller y konstant och ökar x - vad händer då med hela termen? Ni får svaret: Den ökar. Om jag håller x konstant och ökar y, vad händer då med hela termen? Den minskar, inte sant? Det är mycket enkel matematisk grund.
Så låt oss nu förstå vad Variansinflationens faktor är på ett mycket enkelt sätt. Variansinflationens faktor är ett begrepp eller en mätning genom vilken vi kan veta vilka variabler i datat som är starkt korrelerade med andra variabler. Låt mig ge er ett enkelt exempel. Anta att detta är ert data. I detta data erfogar ni anställningsdata för en organisation, samma exempel som jag alltid ger. I en kolumn tar ni ålder, i en annan tar ni antal år arbetserfarenhet och i den tredje kolumnen tar ni kön. Er målvariabel är lön. Lön är er målvariabel, och era oberoende kolumner är arbetslivserfarenhet och kön. Nu sa jag i multi-kolinearitetsvideon att ni kan se korrelationen mellan oberoende variabler och ta bort variabler som är starkt korrelerade med varandra. När ni tittar på korrelation, vad ni kommer att se är en korrelationsmatris. I matrisen kommer ni att ha x1, x2, x3 och här kommer ni också att ha x1, x2 och x3. Här kommer ni att ha x1 korrelerad med x1, alltid 1. x1 korrelerad med x2 något tal, låt oss säga 0,9. Så här kommer er korrelationsmatris att se ut.
Det ni gör är att ni tittar på de högre talen och tar bort variabeln, men en sak att tänka på är att detta alltid är korrelation av en variabel med en annan. Till exempel, x1 med x2. Om jag ser på denna ruta, så berättar den mig att x3 är korrelerad med x2. Men vad gör jag om jag vill veta hur x1 är relaterad till alla andra variabler? I ert data, antag att ni har 10 variabler och ni vill veta hur x1 är relaterad till de andra 9 variablerna. Svaret på det är Variansinflationens faktor. Så vad kommer att hända här är, glöm era målvariabler för en stund. Låt oss säga att ni har fem oberoende variabler. x1, x2, x3, x4 och x5. I en vanlig korrelation kan jag se korrelationen mellan x1 och x2, x1 och x3, x3 och x4, så vidare för två variabler i taget. Men vad jag vill se är hur x1 är relaterad till alla andra variabler. Hur kan jag göra det? Enkelt, jag passar en regressionmodell här. Kan vi passa en regressionmodell där det står att x1 är lika med beta0 plus beta1 x2 plus beta2 x3, och så vidare? Vad jag försöker göra här är att jag försöker anpassa en regressionsmodell med en oberoende variabel i taget och behandlar alla andra oberoende variabler som funktioner. Jag upprepar igen, glöm målvariablerna för en stund. Detta är alla era oberoende variabler eller funktioner hos data. Ta ut en funktion och gör den till en separat modell där denna funktion blir en målvariabel och alla andra funktioner blir oberoende variabler. När vi passerar en regressionsmodell kommer vi att få R-tal. Vi kommer att få ruta