Vastgoedwaardering met behulp van regressieanalyse - een zelfstudie

Samenvatting

Regressieanalyse biedt een meer wetenschappelijke benadering voor vastgoedwaardering
  • Traditioneel zijn er drie benaderingen voor het waarderen van onroerend goed:vergelijkbare verkopen, inkomsten en kosten.
  • Regressiemodellen bieden een alternatief dat flexibeler en objectiever is. Het is ook een proces dat, zodra een model is gemaakt, autonoom wordt, waardoor vastgoedondernemers zich kunnen concentreren op hun kerncompetenties.
  • Er kan een model worden gebouwd met tal van variabelen die worden getest op impact op de waarde van een woning, zoals vierkante meters en het aantal slaapkamers.
  • Regressies zijn geen wondermiddel. Er bestaat altijd het gevaar dat variabelen autocorrelatie en/of multicollineariteit bevatten, of dat correlatie tussen variabelen vals is.
Voorbeeld:bouwen van een regressiewaarderingsmodel voor Allegheny County, Pennsylvania
  • Er is een overvloed aan vastgoedinformatie die elektronisch toegankelijk is om in modellen in te voeren. Overheidsinstanties, professionele gegevensproviders en Multiple Listing Services zijn drie van dergelijke bronnen.
  • Initiële datadumps vereisen enige opschoning om ervoor te zorgen dat er geen onregelmatige sets met informatie zijn. In onze steekproef werden bijvoorbeeld huizen die als cadeau waren overgedragen, verwijderd om de resultaten van de reële marktwaarde niet te verstoren.
  • Met behulp van een willekeurige steekproef van 10% van de gegevens, heeft SPSS de volgende vijf variabelen geretourneerd als zijnde het meest voorspellend voor de waarde van onroerend goed:
    • Cijfer gebaseerd op de kwaliteit van de constructie, gerangschikt 1-19 (1=Zeer slecht en 19=Uitstekend)
    • Afgewerkte woonruimte
    • Airconditioning (Ja/Nee)
    • Kavelgrootte
    • Cijfer voor fysieke conditie of staat van onderhoud gerangschikt 1-8
  • Het testen van de resultaten is van cruciaal belang, waarbij de Durbin-Watson-test wordt gebruikt voor autocorrelatie en de Breusch-Pagan-test voor heteroscedasticiteit. In ons model waren er lichte heteroscedastische neigingen, wat aangeeft dat de variabiliteit van sommige variabelen ongelijk was over het volledige bereik van waarden.
Kan op regressie gebaseerde vastgoedanalyse nuttig zijn voor uw bedrijf?
  • Afgezien van het waarderen van eigendommen, kan regressieanalyse binnen onroerend goed bijzonder voordelig zijn op andere gebieden:
    • Testen levert prestaties op eerdere deals op
    • Prijsanalyse voor catalogusprijzen en huurtarieven
    • Demografische en psychografische analyse van kopers en huurders van woningen
    • Identificeren van doelen voor direct marketing
    • ROI-analyse voor marketingcampagnes
  • Bovendien moet u bij het beoordelen van kandidaten om regressiemodellen te bouwen op uw hoede zijn voor degenen die de wereld vanaf de eerste dag beloven. Het bouwen van een robuust regressiemodel is een iteratief proces, dus focus in plaats daarvan op degenen die van nature nieuwsgierig zijn en ter plekke kunnen denken (d.w.z. hersenkrakers kunnen beantwoorden met een denkproces).

In onroerend goed kan het taxatieproces maar al te vaak overkomen als een oefening van duimzuigen. De makelaar komt langs, schopt tegen de spreekwoordelijke banden en produceert dan een geschatte waarde met heel weinig "kwantitatief" inzicht. Misschien wordt het proces verergerd door de emotionele gehechtheid die het bezit van onroerend goed met zich meebrengt, aangezien voor velen een huis de grootste financiële investering in een mensenleven zal zijn.

Toch is er een methode voor deze waanzin. Nou ja, drie om precies te zijn.

Hoe wordt onroerend goed gewaardeerd?

De vergelijkbare verkoopbenadering komt het meest voor in residentieel vastgoed en maakt gebruik van recente verkopen van vergelijkbare eigendommen om de waarde van een object in kwestie te bepalen. De verkoopprijs van de "comp's" wordt aangepast op basis van verschillen tussen hen en het object in kwestie. Als een vergelijkbare woning bijvoorbeeld een extra badkamer heeft, wordt de geschatte waarde van de badkamer afgetrokken van de waargenomen verkoopprijs.

Commercieel vastgoed wordt als heterogener beschouwd, waardoor de vergelijkbare verkoopbenadering minder vaak wordt gebruikt. De inkomstenbenadering, gebaseerd op het concept dat de intrinsieke waarde van een actief gelijk is aan de som van al zijn verdisconteerde kasstromen, wordt vaker toegepast op twee methoden:

  1. Vergelijkbaar met de contante waarde van een lijfrente, gebruikt de directe kapitalisatiemethode het netto bedrijfsresultaat (NOI) van een onroerend goed gedeeld door de "cap rate" om een ​​waarde vast te stellen. De cap rate bevat een impliciete disconteringsvoet en toekomstige groei van het netto bedrijfsresultaat.
  2. De verdisconteerde kasstroommethode levert de contante waarde van toekomstige kasstromen over een bepaalde periode, met een eindwaarde die wordt geschat op basis van een eindlimiet.

De laatste techniek is de kostenbenadering, waarbij de waarde wordt geschat op basis van de kosten van het verwerven van een identiek stuk land en het bouwen van een replica van het betreffende onroerend goed. Vervolgens worden de kosten van het project afgeschreven op basis van de huidige staat van veroudering van het betreffende onroerend goed. Net als bij de aanpassingen in de vergelijkbare verkoopaanpak, is het doel om het object goed te laten aansluiten. De kostenbenadering wordt minder vaak gebruikt dan de andere twee benaderingen.

Alle traditionele waarderingsmethoden voor onroerend goed zijn subjectief, vanwege de selectie van de inputs die voor de waardering worden gebruikt. De keuze van de cap rate heeft bijvoorbeeld een aanzienlijke invloed op de waardering van een onroerend goed:bij het taxeren van een onroerend goed met een NOI van $ 1 miljoen zal een stijging van de cap rate met 4% (van 6% naar 10%) de waarde van het eigendom met 40% (grafiek hieronder).

Voordelen van het gebruik van regressiemodellen bij vastgoedwaardering

Er zijn tal van voordelen aan het gebruik van regressiemodellen voor de waardering van onroerend goed. De detailhandel heeft het gebruik ervan voor locatieselectie omarmd, maar de vastgoedsector heeft voor het grootste deel de potentiële voordelen over het hoofd gezien. Regressieanalyse is met name geschikt voor het analyseren van grote hoeveelheden gegevens. Het zou praktisch onmogelijk zijn om een ​​grondige kennis te hebben van elke lokale vastgoedmarkt in het land, maar regressiemodellering kan helpen om de zoekopdracht te verfijnen.

1. Flexibiliteit

Het grootste voordeel van het gebruik van regressiemodellering is de inherente flexibiliteit - ze kunnen onafhankelijk van andere modellen werken of ermee samenwerken.

De meest directe benadering is om bestaande verkoopgegevens te gebruiken om de waarde van een object in kwestie te voorspellen, als output naar het model. Er zijn talloze bronnen van gratis gegevens van lokale, provinciale en federale instanties die kunnen worden aangevuld met privégegevensproviders.

Een andere optie is om regressiemodellen te gebruiken om inputs voor andere traditionele waarderingsmethoden nauwkeuriger te voorspellen. Bij het analyseren van een commercieel project voor gemengd gebruik kan een ontwikkelaar bijvoorbeeld één model bouwen om de verkoop per vierkante meter voor de winkelruimte te voorspellen, en een ander model om de huurprijzen voor de residentiële component te voorspellen. Beide kunnen dan worden gebruikt als input voor een inkomensbenadering voor waardering.

2. Objectieve benadering

Het gebruik van degelijke statistische principes levert een objectievere benadering van waardering op. Het is een van de beste manieren om vooringenomenheid van bevestiging te voorkomen, die optreedt wanneer mensen informatie zoeken die hun bestaande mening bevestigt of nieuwe informatie afwijzen die deze tegenspreekt. Toen ik modellen voor retailers heb gebouwd om nieuwe winkelverkopen te voorspellen, waren ze vaak verrast om te horen dat veel retailers er baat bij hebben om dichtbij een concurrent te zijn. In feite was colocatie met Walmart, die vaak hun grootste concurrent was, een van de meest voorkomende variabelen die in mijn modellen werden gebruikt. Vertrouwen op bestaande vooroordelen kan leiden tot gemiste kansen, of erger nog, rampen om de hoek verbergen.

Enkele van de objectieve voordelen van statistische waardering zijn de volgende:

  1. Met statistische analyse kunt u de statistische significantie (betrouwbaarheid) van individuele factoren in het model bepalen.
  2. Hoewel scenario- of gevoeligheidsanalyse u een algemeen idee kan geven van wijzigingen in invoer in meer traditionele methoden, lijkt het meer op het maken van meerdere voorspellingen in plaats van u een beter idee te geven van de nauwkeurigheid van de oorspronkelijke voorspelling. Aan de andere kant, wanneer u een regressiemodel bouwt, weet u wat het bereik van de resultaten zal zijn op basis van een bepaald niveau van vertrouwen.

Regressiemodellen zijn uniek omdat ze een ingebouwde controle op nauwkeurigheid hebben. Nadat u een model hebt gebouwd op een steekproef van de totale populatie, kunt u het model gebruiken op gegevens die buiten de steekproef vallen om mogelijke steekproefvertekening te detecteren.

3. Vasthouden aan uw kerncompetentie

Traditionele waarderingsmethoden hebben allemaal een aanzienlijk risico op selectiebias. Bij het kiezen van vergelijkbare eigenschappen is het heel gemakkelijk om in de val te lopen door de beste resultaten te selecteren en ervan uit te gaan dat ze het meest op uw project lijken. Ook ligt de nadruk op het voorspellen van variabelen, zoals het rendement in de inkomensbenadering. Het elimineren van de noodzaak van deze voorspelling zou aantrekkelijk kunnen zijn voor veel vastgoedinvesteerders, daarom is regressiegebaseerde waardering een nuttige benadering.

Potentiële problemen met regressieanalyse

De hoeveelheid grappen die de verschillende percentages statistieken citeren die zijn verzonnen, is inderdaad een grap op zich. We worden bijna elke dag bestookt met koppen in de media over de resultaten van een nieuw onderzoek, waarvan vele in tegenspraak lijken te zijn met een vorig jaar gepubliceerd onderzoek. In een wereld van soundbites is er geen tijd om de rigoureusheid van de door de onderzoekers gebruikte methoden te bespreken.

Er zijn veel soorten regressieanalyse, maar de meest voorkomende is lineaire regressie. Er zijn bepaalde aannames over lineaire regressies die niet mogen worden geschonden om het model als geldig te beschouwen. Het schenden van deze aannames vervormt statistische tests die de voorspellende kracht van de inputs en het algemene model berekenen.

Lineaire regressie-veronderstellingen

Er moet een lineair verband zijn tussen de input (onafhankelijke variabelen) en de output (afhankelijke variabele). We zouden bijvoorbeeld kunnen aannemen dat er een lineair verband bestaat tussen de verwarmde vierkante meter in een huis en de totale waarde ervan. Vanwege de afnemende opbrengsten kunnen we echter ontdekken dat de relatie niet-lineair is, waardoor een transformatie van de onbewerkte gegevens nodig is.

De onafhankelijke variabelen mogen niet willekeurig zijn. Simpel gezegd, de waarnemingen voor elke onafhankelijke variabele in het model zijn vast en er wordt aangenomen dat ze geen fout bevatten in hun meting. Als we bijvoorbeeld het aantal eenheden gebruiken om de waarde van een flatgebouw te modelleren, hebben alle gebouwen in onze voorbeeldgegevens een vast aantal eenheden dat niet verandert, ongeacht hoe we het model bouwen.

De "restanten" van het model (d.w.z. het verschil tussen het voorspelde resultaat van het model en de werkelijke waarnemingen) zullen optellen tot 0, of in eenvoudiger bewoordingen:het model dat we zullen gebruiken, vertegenwoordigt de lijn die het beste past.

Het model moet nauwkeurig zijn voor alle waarnemingen voor elke onafhankelijke variabele. Als we de waarde van een huis hadden voorspeld op basis van zijn vierkante meters, zouden we het model niet willen gebruiken als het extreem nauwkeurig zou zijn in het voorspellen van waarden voor huizen van minder dan 1.500 vierkante voet, maar er was een grote hoeveelheid fouten voor huizen van meer dan 3.000 vierkante meter. Dit staat bekend als heteroscedasticiteit.

Een van de meest voorkomende problemen met lineaire regressie bij het kijken naar de vastgoedsector is een correlatie van restfouten tussen waarnemingen. Je kunt dit zien als witte ruis zonder patroon. Als er echter een patroon is in de residuen, moeten we hoogstwaarschijnlijk een aanpassing maken. Dit probleem is moeilijk te bedenken, maar er zijn twee hoofdgebieden waar dit een punt van zorg is in de vastgoedsector.

1. Autocorrelatie

Het bouwen van een model op basis van waarnemingen over een lange periode zou niet geschikt zijn voor het voorspellen van huidige waarden. Stel dat we een model hebben gebouwd om de waarde van een hoteleigendom te voorspellen met behulp van de gemiddelde kamerprijs als onafhankelijke variabele. De voorspellende kracht van deze variabele kan misleidend zijn omdat de kamerprijzen in de loop van de tijd constant zijn gestegen. In statistische termen is er een autocorrelatie tussen de waargenomen gemiddelde kamerprijzen die een positieve trend in de tijd laten zien (d.w.z. inflatie) waarmee in het model geen rekening zou worden gehouden. De traditionele vergelijkbare verkoopbenadering die het meest wordt gebruikt in residentieel vastgoed, elimineert dit probleem door alleen de meest recente gegevens te gebruiken. Omdat er veel minder commerciële transacties zijn, maakt deze tijdsbeperking de vergelijkbare verkoopbenadering vaak ondoeltreffend. Er zijn echter technieken die lineaire regressie gebruiken die de problemen van autocorrelatie kunnen overwinnen.

Het clustereffect is ook een belangrijke uitdaging bij het modelleren van vastgoedwaardering. Dit kan worden gezien als ruimtelijke autocorrelatie. De eenvoudigste manier om over dit probleem na te denken, is door je voor te stellen een model te bouwen om de waarde van huizen in twee buurten (A en B) aan weerszijden van een snelweg te voorspellen. Als geheel kan het model goed werken bij het voorspellen van waarden, maar als we de resterende fouten onderzoeken, zien we dat er een patroon is. De woningen in wijk A zijn over het algemeen circa 10% overgewaardeerd en de woningen in wijk B circa 10% ondergewaardeerd. Om ons model te verbeteren, moeten we rekening houden met dit clustereffect of één model bouwen voor elke buurt.

2. Multicollineariteit

Idealiter zijn variabelen binnen een model niet met elkaar gecorreleerd. Dit bekende probleem wordt multicollineariteit genoemd. Het gebruik van zowel vierkante voet als het aantal parkeerplaatsen als input voor een model dat regionale winkelcentra waardeert, zou waarschijnlijk multicollineariteit aantonen. Dit is intuïtief omdat planningscodes vaak een bepaald aantal parkeerplaatsen vereisen op basis van de vierkante meters van een commerciële ruimte. In dit voorbeeld zou het verwijderen van een van de variabelen een nauwkeurigere beoordeling van het aangepaste model geven zonder de voorspellende kracht ervan aanzienlijk te verminderen.

Andere overwegingen

Het gebruik van waargenomen gegevens is de kern van elke empirische benadering, maar het is belangrijk om te onthouden dat resultaten uit het verleden niet altijd de toekomst voorspellen. Illiquide activa zoals onroerend goed zijn bijzonder kwetsbaar voor veranderingen in de conjunctuurcyclus. De voorspellende kracht voor bepaalde variabelen zal waarschijnlijk veranderen op basis van de huidige economische omstandigheden. Dit probleem is niet uniek voor lineaire regressie en wordt ook gevonden bij traditionele benaderingen.

Correlatie is niet gelijk aan causaliteit. Het doel van modelbouw is om bruikbare variabelen te vinden die geldige voorspellingen kunnen doen. Je moet op je hoede zijn voor valse correlaties. Het zal je misschien verbazen dat er een extreem sterke correlatie is tussen het aantal echtscheidingen in Maine en de consumptie van margarine per hoofd van de bevolking. Het gebruik van echtscheidingsgegevens uit Maine zou echter geen zin hebben als u de toekomstige margarineverkoop zou proberen te voorspellen.

Een realistisch voorbeeld van vastgoedwaardering via regressie

Laten we deze kennis nu praktisch toepassen en van begin tot eind een lineair model bouwen. Voor ons voorbeeld zullen we proberen een waarderingsmodel voor onroerend goed op te bouwen dat de waarde voorspelt van vrijstaande eengezinswoningen in Alleghany County, Pennsylvania. De keuze voor Alleghany County is willekeurig en de gedemonstreerde principes werken voor elke locatie. We zullen Excel en SPSS gebruiken, een veelgebruikte statistische software.

Gegevens zoeken

Het vinden van kwaliteitsgegevens is de eerste stap bij het bouwen van een nauwkeurig model en misschien wel de belangrijkste. Hoewel we allemaal de uitdrukking "garbage in, garbage out" hebben gehoord, is het belangrijk om te onthouden dat er geen perfecte dataset is. Dit is prima zolang we er gerust vanuit kunnen gaan dat de steekproefgegevens representatief zijn voor de hele populatie. Er zijn drie belangrijke bronnen voor vastgoedgegevens:

  1. De eerste en vaak beste gegevensbron is afkomstig van overheidsinstanties. Veel van deze gegevens zijn gratis of relatief goedkoop. Veel bedrijven brengen data in rekening die je gemakkelijk gratis zou kunnen krijgen, dus kijk altijd even op internet voordat je data koopt. Een zoekopdracht op internet levert vaak resultaten op door te zoeken naar de provincie of stad die u zoekt en woorden als 'belastingadviseur', 'belastingtaxaties', 'vastgoedgegevens' of 'akte zoeken'. Afdelingen voor geografische informatiesystemen (GIS) zijn een van de meest over het hoofd geziene delen van veel gemeenschappen. Ze hebben vaak veel van de gegevens verzameld van verschillende andere lokale instanties. Als vastgoedontwikkelaar vertrouwde ik vaak op hun hulp bij het vinden van hoogwaardige gegevens die ik gebruikte om modellen te bouwen om nieuwe eigendommen voor ontwikkeling te vinden. Organisaties voor economische ontwikkeling kunnen ook een uitstekende bron van gegevens zijn.
  2. Verkopers met winstoogmerk zijn een andere optie. Ze zijn vooral handig wanneer u op zoek bent naar gegevens over meerdere gebieden. Zorg ervoor dat u uw huiswerk doet voordat u grote sommen geld betaalt voor hun gegevens. Vertrouw niet alleen op hun voorbeeldgegevenssets, omdat deze misleidend kunnen zijn in termen van volledigheid. Als je twijfelt over welke gegevens ze beschikbaar hebben, neem dan rechtstreeks contact op met een vertegenwoordiger of vraag naar een geld-terug-garantie.
  3. Ten slotte zijn lokale Multiple Listing Services (MLS) van onschatbare waarde. De meeste eigendommen worden verkocht via een makelaar die lid is van een MLS. Over het algemeen zijn leden van een MLS verplicht om al hun vermeldingen in het lokale systeem te plaatsen. Helaas zijn er vaak veel beperkingen voor deelname aan een MLS en kunnen de kosten van gegevenstoegang behoorlijk hoog zijn. Het is ook belangrijk om ervoor te zorgen dat u de servicevoorwaarden niet schendt bij het gebruik van hun gegevens en dat u zich openstelt voor mogelijke aansprakelijkheid.

We gebruiken voor ons voorbeeld uitsluitend gratis gegevens, afkomstig van het Western Pennsylvania Regional Data Center en het U.S. Census Bureau. De Alleghany Real Estate Sales-gegevens geven ons een basisbestand voor onze waarnemingen met verkoopprijs als onze afhankelijke variabele (Y-variabele). We zullen ook variabelen testen met behulp van de walk-score voor elk volkstellingskanaal en belastingbeoordelingsinformatie.

Een zeer nuttige variabele bij het bouwen van vastgoedmodellen is de lengte- en breedtegraad van elk adres. U kunt deze gegevens verkrijgen via een geocoder die een straatadres gebruikt om een ​​breedte- en lengtegraad toe te wijzen. De geocoder van het U.S. Census Bureau identificeert ook het volkstellingskanaal voor elke locatie die gewoonlijk wordt gebruikt om demografische en psychografische informatie samen te voegen.

Analyseren, transformeren en nieuwe variabelen maken.

Nu we onze gegevensbronnen hebben geselecteerd, moeten we de kwaliteit van de gegevens onderzoeken. De eenvoudigste manier om de gegevenskwaliteit te controleren, is door een frequentietabel uit te voeren voor een paar belangrijke variabelen. Als er een aanzienlijk aantal ontbrekende of corrupte vermeldingen zijn, moeten we de gegevens verder onderzoeken. De onderstaande tabel laat zien dat slechts 1 van de 216.498 records een ontbrekende postcode in het verkoopbestand heeft, en er zijn geen foutieve postcodes zoals 99999 of 1X#45. Dit geeft waarschijnlijk aan dat dit een dataset van hoge kwaliteit is.

Een datadictionary is, indien beschikbaar, een uitstekende bron. Het geeft een beschrijving van wat elke variabele meet, en mogelijke opties voor de variabele. Onze gegevens bevatten een analyse van elke verkoop in de provincie. Dit is belangrijke informatie, vooral bij het werken met onbewerkte akterecords. Alle onroerendgoedtransacties moeten worden geregistreerd om wettelijk afdwingbaar te zijn, maar niet alle overdrachten weerspiegelen de echte reële marktwaarde van een onroerend goed. Een verkoop tussen twee gezinsleden kan bijvoorbeeld plaatsvinden tegen een prijs die onder de marktprijs ligt als een vorm van een geschenk of om te voorkomen dat u hogere transactiekosten betaalt, zoals aktestempels. Gelukkig voor ons markeert de lokale overheid duidelijk overdrachten waarvan zij denken dat ze niet representatief zijn voor de huidige marktwaarden, dus we zullen alleen gegevens gebruiken die een "geldige verkoop" weerspiegelen. Deze verkopen vertegenwoordigen slechts ongeveer 18% van het totale aantal transacties, wat illustreert hoe belangrijk het is om uw gegevens te begrijpen voordat u deze voor analyse gaat gebruiken. Op basis van mijn ervaring is deze verhouding vrij gebruikelijk bij het analyseren van aktes. Het is zeer waarschijnlijk dat als we een model zouden bouwen dat de "ongeldige verkopen" bevat, onze uiteindelijke resultaten vertekend zouden zijn.

Vervolgens voegen we onze taxatiegegevens en loopscores toe aan het verkoopbestand. Dit geeft ons één enkele tabel die we voor ons model kunnen gebruiken. Op dit punt moeten we de variabelen analyseren om te zien of ze geschikt zijn voor lineaire regressie. Hieronder staat een tabel met verschillende soorten variabelen.

Ons bestand bevat verschillende nominale waarden zoals buurt of postcode, die gegevens categoriseren zonder enig gevoel voor orde. Nominale waarden zijn niet geschikt voor lineaire regressie zonder transformatie. Er zijn ook verschillende ordinale variabelen die de kwaliteit van de constructie, de huidige staat van het onroerend goed, enz. beoordelen. Het gebruik van ordinale gegevens is alleen geschikt als we redelijkerwijs kunnen aannemen dat elke rang gelijk is verdeeld. Onze gegevens hebben bijvoorbeeld een cijfervariabele met 19 verschillende classificaties (A+, A, A-, enz.), dus we kunnen er gerust van uitgaan dat deze cijfers waarschijnlijk gelijkmatig verdeeld zijn.

Er zijn ook verschillende variabelen die moeten worden getransformeerd voordat we ze in het model kunnen gebruiken. Een nominale waarde die kan worden omgezet in een dummyvariabele om te testen, is de variabele verwarming en koeling. We zetten de variabele op 0 voor alle woningen zonder airconditioning en die met airconditioning op 1. Ook moeten de lettercijfers worden omgezet in cijfers (bijv. 0=Slechtste, 1=Beter, 2=Beste) om te zien als er een lineair verband is met de prijs.

Ten slotte moeten we bepalen of het gepast is om alle waarnemingen te gebruiken. We willen de waarde van vrijstaande eengezinswoningen voorspellen, zodat we alle commerciële panden, appartementen en rijtjeshuizen uit de gegevens kunnen verwijderen. Ook willen we mogelijke problemen met autocorrelatie voorkomen, daarom gebruiken we alleen data voor verkopen in 2017 om de kans hierop te verkleinen. Nadat we alle externe records hebben verwijderd, hebben we onze definitieve dataset om te testen.

Voorbeeld en variabele selectie

Het selecteren van de juiste steekproefomvang kan lastig zijn. Onder academisch materiaal wordt een breed scala aan minimale aantallen voorgesteld en verschillende vuistregels. Voor onze studie is de totale populatie vrij groot, dus we hoeven ons geen zorgen te maken dat we genoeg hebben voor een steekproef. In plaats daarvan lopen we het risico een steekproef te hebben die zo groot is dat bijna elke variabele een statistische significantie in het model zal hebben. Uiteindelijk werd ongeveer 10% van de records willekeurig geselecteerd voor modellering.

Variabele selectie kan een van de moeilijkste onderdelen van het proces zijn zonder statistische software. SPSS stelt ons echter in staat om snel veel modellen te bouwen op basis van een combinatie van variabelen die we geschikt achten voor een lineaire regressie. SPSS filtert automatisch variabelen uit op basis van onze drempels voor statistische significantie en retourneert alleen de beste modellen.

Het model bouwen en de resultaten bekijken

Op basis van onze voorbeeldgegevens heeft SPSS vijf modellen geproduceerd. Het model dat het meest voorspellend was, omvatte de volgende 5 variabelen.

  1. Grade gebaseerd op kwaliteit van constructie gerangschikt 1-19 (1=zeer slecht en 19=uitstekend)
  2. Afgewerkte woonruimte
  3. Airconditioning (Ja/Nee)
  4. Kavelgrootte
  5. Grade voor fysieke conditie of staat van onderhoud gerangschikt 1-8 (1=onbewoonbaar en 8=uitstekend)

Laten we eens kijken naar de resultaten van SPSS. Onze belangrijkste focus zal in eerste instantie liggen op de R-kwadraatwaarde die ons vertelt welk percentage variantie in de afhankelijke variabele (prijs) wordt voorspeld door de regressie. De best mogelijke waarde zou 1 zijn en het resultaat van ons model is veelbelovend. De standaardfout van de schatting die de precisie van het model meet, lijkt vrij hoog te zijn op $ 73.091. Als we dat echter vergelijken met de standaarddeviatie van de verkoopprijs in het model ($ 160.429), lijkt de fout redelijk.

Model 5 had een acceptabele standaardfout en slaagt voor de Durbin-Watson-test

SPSS heeft ingebouwde functionaliteit om te testen op autocorrelatie met behulp van de Durbin-Watson Test. Idealiter zou de waarde 2,0 zijn op een schaal van 0 tot 4, maar een waarde van 1,652 zou geen alarm moeten veroorzaken.

Vervolgens testen we de resultaten van het model om te bepalen of er aanwijzingen zijn voor heteroscedasticiteit. Er is geen ingebouwde functionaliteit voor SPSS, maar met behulp van deze macro, geschreven door Ahmad Daryanto, kunnen we de Breusch-Pagan- en Koenker-tests gebruiken. Deze tests laten zien dat er sprake is van heteroscedasticiteit in ons model, aangezien het significantieniveau (Sig) in de onderstaande grafiek lager is dan .005. Ons model heeft een van de klassieke veronderstellingen van lineaire regressie geschonden. Hoogstwaarschijnlijk moet een van de variabelen in het model worden getransformeerd om het probleem op te lossen. Voordat we dit echter doen, is het een goed idee om te kijken wat de effecten van de heteroscedasticiteit zijn op de voorspellende kracht van onze onafhankelijke variabelen. Door het gebruik van een macro die is ontwikkeld door Andrew F. Hayes, kunnen we kijken naar de aangepaste standaardfouten en significantieniveaus voor onze onafhankelijke variabelen.

Er is heteroscedasticiteit aanwezig in het model, maar verdere tests tonen aan dat dit geen invloed heeft op de onafhankelijke variabelen

Verdere tests laten zien dat de onafhankelijke variabelen statistisch significant blijven, nadat we rekening hebben gehouden met de heteroscedasticiteit in het model, dus we hoeven het voorlopig niet per se te wijzigen.

Test en verfijn het model

Als laatste test zullen we met ons model alle verkooprecords scoren die geen deel uitmaakten van het originele monster. Dit zal ons helpen te zien hoe het model presteert op een grotere set gegevens. De resultaten van deze test laten zien dat de R-kwadraatwaarde en standaardfout van de schatting niet significant veranderden op de grote dataset, wat waarschijnlijk aangeeft dat ons model zal presteren zoals verwacht.

Het toepassen van het model op de volledige dataset toont consistentie met de steekproef, met vergelijkbare R-kwadraat- en standaardfoutwaarden

Als we ons voorbeeldmodel in het echte leven zouden willen gebruiken, zouden we de gegevens waarschijnlijk verder segmenteren om verschillende modellen te hebben die nauwkeuriger zijn of op zoek gaan naar aanvullende gegevens om de precisie van dit enkele model te verbeteren. Deze stappen zouden waarschijnlijk ook de heteroscedasticiteit verwijderen die we in het model zagen. Op basis van het feit dat we probeerden een enkel model te gebruiken om de waarde van huizen te voorspellen in een provincie met meer dan 1 miljoen mensen, zou het geen verrassing moeten zijn dat we niet in staat waren om het "perfecte" model in slechts een paar uur te bouwen .

Conclusies

Ons doel was om een ​​model te bouwen dat de waarde van eengezinswoningen voorspelt. Uit onze analyse blijkt dat we dat doel met een redelijke mate van precisie hebben bereikt, maar is ons model zinvol?

Als we ons model zouden beschrijven, zouden we zeggen dat de waarde van een huis afhankelijk is van de grootte van het perceel, de vierkante meters van het huis, de kwaliteit van de constructie, de huidige staat van onderhoud en het al dan niet hebben airconditioning. Dit lijkt heel redelijk. Als we ons model vergelijken met de traditionele waarderingsmethoden, zien we dat het erg lijkt op de kostenbenadering, waarbij de kosten voor het verwerven van grond en het bouwen van een nieuw gebouw worden toegevoegd, aangepast aan de huidige staat van veroudering. Deze overeenkomst kan echter, om een ​​regressiefrase te gebruiken, een valse correlatie zijn.

Meestal is de kostenbenadering alleen aanbevolen voor het waarderen van nieuwere eigendommen, vanwege problemen bij het bepalen van de juiste methode voor afschrijving van oudere eigendommen. Met ons model hebben we een vergelijkbare strategie ontwikkeld die nuttig is voor eigendommen van elke leeftijd. We hebben zelfs leeftijd als onafhankelijke variabele getest en geconcludeerd dat het geen statistisch significant effect heeft op de waarde van het eigendom!

Regressieanalyse gebruiken voor uw bedrijf

Hopelijk heb je nu een beter begrip van de basisprincipes van regressieanalyse. De volgende vraag is:kan het uw bedrijf helpen? Als u een van deze vragen met ja beantwoordt, kunt u waarschijnlijk baat hebben bij het gebruik van regressieanalyse als hulpmiddel.

  1. Wilt u een meer wetenschappelijke benadering voor het bepalen van waarde, het maken van prognoses of het analyseren van een bepaalde markt?
  2. Bent u op zoek naar betere manieren om potentiële vastgoedinvesteringen in grote gebieden, regio's of zelfs landelijk te identificeren?
  3. Is uw doel om grote retailers, restaurants of horecabedrijven aan te trekken voor uw commercieel vastgoedproject?
  4. Denkt u dat u uw besluitvormingsproces mogelijk kunt verbeteren door nieuwe gegevenspunten in het proces op te nemen?
  5. Maakt u zich zorgen over het rendement op uw investering in marketing voor kopers en investeerders?

Het bovenstaande voorbeeldmodel is een eenvoudige demonstratie van de waarde van het gebruik van regressiemodellering in onroerend goed. De 2-3 uur die nodig waren om de gegevens te verzamelen en het model te bouwen, laten nog lang niet zijn volledige potentieel zien. In de praktijk is er een breed scala aan toepassingen voor regressieanalyse in de vastgoedsector buiten de waardering van onroerend goed, waaronder:

  1. Prijsanalyse voor catalogusprijzen en huurtarieven
  2. Demografische en psychografische analyse van kopers en huurders van woningen.
  3. Identificeren van doelen voor direct marketing
  4. ROI-analyse voor marketingcampagnes

Geospatiale modellering maakt gebruik van de principes van regressieanalyse in combinatie met de drie belangrijkste dingen in onroerend goed:locatie, locatie, locatie. Ik heb acht jaar als residentiële ontwikkelaar gewerkt en kan getuigen van de kracht van geospatiale modellering. Met ArcGIS kon ik verkoopgegevens, perceelkaarten en lidar-gegevens opnemen om eigendommen te vinden die ideaal waren voor ontwikkeling in de bergen van North Carolina.

Op basis van mijn ervaring wordt het meeste geld in onroerend goed verdiend met de acquisitie, niet met de ontwikkeling van een project. In staat zijn om kansen te identificeren die anderen missen, kan een enorm concurrentievoordeel zijn in onroerend goed. Geospatiale analyse is iets waar grote bedrijven al jaren van profiteren, maar kleinere bedrijven zien vaak over het hoofd.

Hoe u de juiste Analytics-partner voor uw bedrijf identificeert

Zeer weinig mensen zouden statistiek als hun favoriete onderwerp beschouwen. In feite zijn mensen over het algemeen erg slecht in het begrijpen van zelfs elementaire waarschijnlijkheden. If you’re doubtful of this opinion, take a trip to Las Vegas or Macau. Unfortunately, this can make it difficult to determine who to trust when you’re looking for advice on implementing regression analysis in your process. Here are some key things to look for when evaluating potential candidates

While people are bad at judging probabilities, intuition is actually rather good at detecting lies. You should be very skeptical of anyone who claims to be able to build a model that will answer all your questions! Don’t trust a guarantee of results. Hopefully, this article has illustrated the fact that regression analysis is based on empirical observation and sound science. It will always be the case that certain things are easier to predict than others. A trusted advisor will be open and honest when they can’t find the answers you’re looking for, and they won’t run through your budget trying to find one that isn’t there.

Look for Mr. Spock instead of Captain Kirk. Sound research can be an excellent marketing tool, but far too often people pay for sexy marketing materials with a whiff of pseudo-research and no logic to back it up. Some people are naturally more analytical, but great analytical skills come from practice. Ideally, anyone you hire to analyze data for your business will have experience finding solutions to a wide variety of problems. Someone with a narrow focus may be more susceptible to groupthink, especially when their experiences closely mirror your own.

Put potential candidates on the spot with questions that help demonstrate their reasoning abilities. This is not the time to rely on behavioral questions alone. Ideal candidates will have the ability to strategically use known information to reasonably estimate the answer to complex problems. Ask logical reasoning questions, like “How many tennis balls could you fit in the Empire State Building?”

Finally, you should look for someone with whom you can communicate. All of the information in the world won’t help if you can’t put it to good use. If someone uses so much jargon in an introductory conversation that your eyes start to glaze over, then they probably aren’t the right fit for your company.


Bedrijfsfinanciering
  1. boekhouding
  2. Bedrijfsstrategie
  3. Bedrijf
  4. Klantrelatiebeheer
  5. financiën
  6. Aandelen beheer
  7. Persoonlijke financiën
  8. investeren
  9. Bedrijfsfinanciering
  10. begroting
  11. Besparingen
  12. verzekering
  13. schuld
  14. met pensioen gaan