Methodik und Datenquellen

Worum es bei der Methodik geht

Wohnort-Kompass vergleicht Regionen in Deutschland auf Basis offener Datenquellen. Das Ziel ist nicht, einen „objektiv besten“ Ort zu bestimmen, sondern eine nachvollziehbare, datenbasierte Vorauswahl zu ermöglichen.

Dafür werden Rohdaten aus mehreren Quellen importiert, auf gemeinsame Regionen bezogen, in normierte Teil-Scores übersetzt und anschließend mit deinen Gewichten zu einem persönlichen Gesamtscore verrechnet.

Der Prozess in 5 Schritten

Schritt 1

Regionen aufbauen

Gemeinde- und Regionsgrenzen werden mit AGS/ARS als gemeinsamer Schlüssel importiert.

Schritt 2

Rohdaten laden

Fachliche Datensätze aus Klima, Luft, Demografie, OSM, Unfallatlas, Flächenatlas und ÖPNV werden regional zugeordnet.

Schritt 3

Werte normieren

Jeder Indikator wird auf eine Skala von 0 bis 100 transformiert, damit unterschiedliche Einheiten vergleichbar werden.

Schritt 4

Kategorie-Scores bilden

Die normierten Indikatoren werden je Kategorie gemittelt und als Snapshot gespeichert.

Schritt 5

Persönlich gewichten

Im Finder werden die Kategorie-Scores nach deinen Präferenzen gewichtet und zu einem Ranking sortiert.

1. Regionen als gemeinsame Basis

Damit Daten aus verschiedenen Quellen zusammenpassen, braucht das System zuerst einen stabilen räumlichen Schlüssel. Diese Grundlage bildet der amtliche Gemeindeschlüssel beziehungsweise Regionalschlüssel (`AGS`/`ARS`).

Die Gemeindegrenzen und Stammdaten werden aus dem BKG-Datensatz übernommen. Dadurch hat jede Region im System eine eindeutige Kennung, einen Namen, eine Geometrie, einen Mittelpunkt und einen Bezug zu ihrem Bundesland.

2. Import der Rohdaten je Themenfeld

Klima und Wetter

DWD-Daten liefern klimatische Belastungsindikatoren wie Hitzetage, Sommertage und einen Niederschlags-Proxy. Diese Werte werden regional zusammengeführt und so aufbereitet, dass sie als Vergleichsindikatoren für alle Regionen nutzbar sind.

Typische Indikatoren: Hitzetage, Sommertage, Niederschlag

Luftqualität

Die Luftdaten stammen aus dem Umweltbundesamt. Für jede Region werden Schadstoffwerte aus der nächstgelegenen UBA-Messstation zugeordnet. Zusätzlich wird die zugehörige Station mit Name und Koordinaten auf der Detailseite angezeigt.

Typische Indikatoren: NO₂, PM10, PM2.5

Verkehrssicherheit

Die Unfalldaten kommen aus dem Unfallatlas. Unfallorte werden regional aggregiert und nach Schwereklassen gespeichert. Im Score fließt aktuell die regionale Unfallbelastung ein, in der Detailansicht zusätzlich die kategorisierten Unfallorte.

Typische Indikatoren: Verkehrsunfälle gesamt

Demografie und Bevölkerung

Demografie-Werte werden aus Destatis beziehungsweise der Regionalstatistik geladen. Je nach Datenverfügbarkeit können absolute Einwohnerwerte, Frauenanteil und Altersstruktur auf Gemeindeebene oder als Indikator-Fallback angezeigt werden.

Typische Indikatoren: Einwohner gesamt, Frauenanteil, Anteil unter 18 Jahren, Anteil ab 65 Jahren

Alltagsnähe aus OSM

OpenStreetMap wird genutzt, um alltagsrelevante Einrichtungen innerhalb einer Region zu zählen und auf die Einwohnerzahl zu beziehen. Dazu gehören unter anderem Apotheken, Schulen, Haltestellen, Bibliotheken, Parks oder Restaurants.

Typische Indikatoren: Alltagsnähe aus OSM-POIs

Flächennutzung

Der Flächenatlas liefert amtliche Kennzahlen zur Bodennutzung auf Gemeindeebene. Dazu gehören unter anderem Waldanteil, Landwirtschaftsanteil sowie Siedlungs- und Verkehrsflächenanteile. Diese Werte werden je Gemeinde übernommen, normiert und als eigene Kategorie bewertet.

Typische Indikatoren: Waldanteil, Landwirtschaftsanteil, Siedlungs- und Verkehrsflächenanteil, Verkehrsflächenanteil, Siedlungs- und Verkehrsfläche je Einwohner

ÖPNV

GTFS-Daten aus OpenData-ÖPNV werden ausgewertet, um Haltestellendichte, Abfahrten je 10.000 Einwohner, absolute Angebotsmasse und Regelmäßigkeit des Angebots zu berechnen. Dichte- und Angebotsmetriken werden logarithmisch normiert, damit kleine und große Netze fairer vergleichbar bleiben.

Typische Indikatoren: Haltestellendichte, Abfahrten je 10.000 Einwohner, Angebotsmasse, Abfahrtsregelmäßigkeit

3. Normierung der Indikatoren auf 0 bis 100

Die Rohdaten haben sehr unterschiedliche Einheiten: Mikrogramm pro Kubikmeter, Prozentwerte, absolute Einwohnerzahlen oder Dichten je 10.000 Einwohner. Um sie vergleichbar zu machen, wird jeder Indikator separat auf eine gemeinsame Skala von 0 bis 100 transformiert.

Technisch nutzt das System dafür je nach Indikator unterschiedliche Normierungsmodi. Viele Kennzahlen werden logarithmisch skaliert, damit extreme Ausreißer die Skala nicht dominieren. Andere laufen bewusst linear oder als robuste Perzentil-Skalierung, wenn das fachlich besser passt. In allen Fällen werden die Werte auf eine gemeinsame Skala von 0 bis 100 transformiert. Liegen alle Werte identisch vor, wird standardmäßig 50 vergeben.

Vereinfachte Formel

Score = ((skalierter Wert − Minimum) / (Maximum − Minimum)) × 100

Je nach Indikator ist der „skalierte Wert“ dabei zum Beispiel `log(1 + Wert)`, ein linearer Rohwert oder ein auf 5.-95. Perzentil begrenzter Wert. Für Indikatoren mit `lower_is_better` wird das Ergebnis anschließend invertiert. Dann gilt also: wenig NO₂, wenig PM10, wenig Unfälle oder wenig Hitzetage ergeben einen höheren Score.

4. Bildung der Kategorie-Scores

Jeder importierte Indikator gehört genau zu einer von sieben Kategorien: Klima, Luftqualität, Verkehrssicherheit, Demografie/Familie, Alltagsnähe, Flächennutzung und ÖPNV.

Innerhalb einer Kategorie werden die normierten Indikatoren in der Regel als Mittelwert zusammengeführt. Für einzelne Kategorien mit stark unterschiedlichen Kennzahlen nutzt das System jedoch eine fachlich begründete interne Gewichtung. Das betrifft aktuell insbesondere den ÖPNV, damit Dichte, absolute Angebotsmasse und Regelmäßigkeit gemeinsam abgebildet werden. Fehlen für eine Kategorie alle Werte, wird der Kategorie-Score zwar im Snapshot als `0` gespeichert, bei personalisierten Gesamtscores aber nicht wie ein echter fachlicher Nullwert behandelt.

Klima

Misst klimatische Belastung und Wettercharakteristik. Weniger Hitzetage sind tendenziell besser; die Richtung wird pro Indikator festgelegt.

Aktuelle Indikatoren: Hitzetage, Sommertage, Niederschlag

Luftqualität

Misst Schadstoffbelastung anhand der nächstgelegenen UBA-Station. Niedrigere Werte ergeben höhere Scores.

Aktuelle Indikatoren: NO₂, PM10, PM2.5

Verkehrssicherheit

Verdichtet Unfallbelastung in einen Sicherheitsscore. Weniger Unfälle sind besser.

Aktuelle Indikatoren: Verkehrsunfälle gesamt

Demografie/Familie

Bündelt Bevölkerungsstruktur, Frauenanteil und Altersanteile. Diese Kategorie ist bewusst beschreibend und keine normative Bewertung einzelner Bevölkerungsgruppen.

Aktuelle Indikatoren: Einwohner gesamt, Frauenanteil, Anteil unter 18 Jahren, Anteil ab 65 Jahren

Alltagsnähe

Misst die Dichte relevanter POIs und Einrichtungen in einer Region. Je mehr alltagsrelevante Infrastruktur vorhanden ist, desto höher der Score.

Aktuelle Indikatoren: Alltagsnähe aus OSM-POIs

Flächennutzung

Misst Flächenstruktur und Flächeninanspruchnahme auf Gemeindeebene. Mehr Wald- und Landwirtschaftsfläche wirkt positiv, hohe Siedlungs-, Verkehrs- und Flächenverbräuche je Einwohner negativ.

Aktuelle Indikatoren: Waldanteil, Landwirtschaftsanteil, Siedlungs- und Verkehrsflächenanteil, Verkehrsflächenanteil, Siedlungs- und Verkehrsfläche je Einwohner

ÖPNV

Misst Erreichbarkeit und Angebotsqualität des öffentlichen Verkehrs anhand von Haltestellendichte, Abfahrtsdichte, absoluter Angebotsmasse und Regelmäßigkeit. Die Kategorie nutzt bewusst eine interne Gewichtung, damit Metropolen und kleinere Städte nicht nur über reine Pro-Kopf-Dichte verglichen werden.

Aktuelle Indikatoren: Haltestellendichte, Abfahrten je 10.000 Einwohner, Angebotsmasse, Abfahrtsregelmäßigkeit

5. Persönlicher Gesamtscore im Finder

Auf der Detailseite wird zunächst ein neutrales Basisprofil angezeigt. Dort zählt jede der sieben Kategorien gleich stark. Im Finder setzt du dann eigene Gewichte von 0 bis 5.

Der persönliche Gesamtscore ist ein gewichteter Mittelwert der sieben Kategorie-Scores. Kategorien mit Gewicht 0 fließen nicht ein. Kategorien ohne Datenabdeckung werden zusätzlich aus der Berechnung herausgenommen, damit fehlende Daten nicht automatisch wie schlechte Werte wirken. Wenn alle Gewichte 0 sind oder für keine gewichtete Kategorie Daten vorliegen, ergibt sich konsequent ein Gesamtscore von 0.

Vereinfachte Finder-Formel

Gesamtscore = Summe aus (Kategorie-Score × Gewicht) / Summe aller Gewichte mit vorhandener Datenabdeckung

Wie die Detailseite ihre Erklärungen bildet

Die Detailseite zeigt nicht nur den Score, sondern auch den Rechenweg. Dazu werden die gespeicherten Rohwerte und normierten Werte je Indikator geladen und in Textbausteine übersetzt.

Zusätzlich werden in einzelnen Bereichen fachliche Zusatzinformationen ergänzt, zum Beispiel:

  • Demografie-Werte aus Gemeindedatensatz oder Regionalstatistik
  • OSM-Alltagsnähe nach Kategorien wie Apotheken, Kitas, Bahnhöfe oder Bibliotheken
  • Unfallatlas-Kategorien nach Schwere
  • nächstgelegene UBA-Messstationen für NO₂, PM10 und PM2.5

Wichtige Grenzen der Methodik

Ein hoher Score ist keine Lebensqualitäts-Garantie

Das Modell bildet ausgewählte messbare Faktoren ab. Es ersetzt keine Ortsbesichtigung und berücksichtigt nicht alles, was für eine Wohnentscheidung wichtig ist, etwa Mieten, soziale Bindungen oder subjektive Atmosphäre.

Normierung ist immer relativ

Ein Score von 80 bedeutet nicht „absolut gut“, sondern vor allem: im Vergleich zu den anderen aktuell im Datensatz enthaltenen Regionen relativ stark.

Datenstände unterscheiden sich

Die Quellen stammen aus unterschiedlichen Veröffentlichungszyklen. Klima, Luft, OSM, Regionalstatistik und GTFS können zeitlich auseinanderliegen.

Fehlende Daten bleiben ein Qualitätsrisiko

Wenn für eine Region in einer Kategorie aktuell keine verwertbaren Werte vorliegen, wird das im System als fehlende Abdeckung markiert. Personalisierte Gesamtscores behandeln diese Kategorie dann nicht wie einen echten Nullwert. Trotzdem bleibt die Vergleichbarkeit eingeschränkt, solange Datengrundlagen unvollständig sind.

Regionale Nähe ist teilweise proxy-basiert

Bei UBA-Luftdaten oder manchen OSM-Aggregationen arbeitet das System mit der nächstgelegenen Station oder mit regionalen Dichten. Das ist sinnvoll für Vergleichszwecke, aber nicht identisch mit einer Messung an jeder Adresse.

Die Gewichtung verschiebt das Ergebnis bewusst

Das Ranking im Finder ist kein neutrales amtliches Gesamtergebnis, sondern eine personalisierte Sicht. Wer Klima hoch gewichtet, bekommt bewusst ein anderes Ranking als jemand mit Fokus auf ÖPNV oder Alltagsnähe.

Datenquellen und Lizenzen

Destatis, Regionalstatistik und XRepository

Destatis und die Regionalstatistik liefern Demografie- und Referenzdaten. XRepository wird im ETL für AGS- und Kreis-Schlüsselräume genutzt.

Lizenz

Datenlizenz Deutschland – Namensnennung – Version 2.0 (dl-de/by-2-0)

Quellenangabe

Datenquelle: Statistisches Bundesamt (Destatis), Genesis-Online bzw. Destatis-Referenzdaten, 19.04.2026; Datenlizenz by-2-0

Für XRepository-Codelisten ist auf den Detailseiten keine eigenständige Lizenz ausgewiesen. Im Projekt werden sie daher als Destatis-Referenzdaten im Open-Data-Kontext von Destatis behandelt. Das ist eine Einordnung aus den offiziellen Destatis-Open-Data-Hinweisen.

Umweltbundesamt Luftdaten

Die Luftdaten-API des Umweltbundesamts liefert Messwerte für NO₂, PM10 und PM2.5 sowie Stationsmetadaten.

Lizenz

Für bereitgestellte Daten und Metadaten ist die Nutzung nach den Bedingungen des UBA-Dienstes zulässig; im Quellenvermerk muss das Umweltbundesamt genannt werden.

Quellenangabe

Quelle: Umweltbundesamt mit Daten der Messnetze der Länder und des Bundes

Die Website-Inhalte selbst stehen, soweit nicht anders gekennzeichnet, unter CC BY-NC-ND 4.0. Diese Website-Lizenz wird im Projekt nicht pauschal auf die Fachdaten übertragen.

Unfallatlas

Die Unfallatlas-Daten liefern Unfallorte und regionale Unfallbelastung für die Kategorie Verkehrssicherheit.

Lizenz

Datenlizenz Deutschland 2.0 für statistische Daten; für kartografische Anwendungen können zusätzliche Hinweise des Atlas gelten.

Quellenangabe

Quelle: Statistische Ämter des Bundes und der Länder / Unfallatlas

Die Zuordnung zu dl-de/by-2-0 folgt den allgemeinen Open-Data-Hinweisen des Statistikportals für statistische Daten.

Flächenatlas

Der Flächenatlas liefert amtliche Kennzahlen zur Flächennutzung auf Gemeindeebene und bildet im Projekt die eigene Kategorie Flächennutzung.

Lizenz

Datenlizenz Deutschland 2.0 für die statistischen Daten; bei kartografischen Anwendungen gelten zusätzlich die Lizenzhinweise des jeweiligen Atlas.

Quellenangabe

Datenquelle: Statistisches Bundesamt (Destatis), Flächenatlas / Flächenerhebung, 2019; Datenlizenz by-2-0

Die Einordnung folgt den allgemeinen Destatis-Open-Data-Hinweisen für statistische Daten. Für den hier genutzten XLSX-Datensatz ist auf der Download-URL selbst keine separate Lizenzseite ausgewiesen.

Wikidata und Wikipedia

Wikidata wird für die Anreicherung von Regionsmetadaten genutzt. Wikipedia wird im Projekt vor allem als ausgehender Link zur Region angezeigt.

Lizenz

Wikidata-Structured-Data: CC0.

Im Projekt werden aus Wikipedia selbst keine Fließtexte importiert, sondern nur Ziel-URLs erzeugt. Die eigentliche strukturierte Anreicherung erfolgt über Wikidata.