Analyse von Ärztedaten mittels Web Scraping

Ziele
Die öffentlich verfügbaren Ärztedaten werden von den Ärztekammer-Seiten der einzelnen Bundesländer mit Hilfe von Web Scraping eingesammelt, aufbereitet und strukturiert abgelegt, um gezielte Fragestellungen zur Versorgungswirksamkeit von Ärzten in Österreich möglichst gut beantworten zu können. Das Ablegen der Daten erfolgt letztlich auch am DEXHELPP Research Server.

Fragestellungen, die durch Datenbankabfragen beantwortet werden können, sind etwa folgende:

  • Wie viele Allgemeinmediziner gibt es in jedem Bezirk/Bundesland/Österreich? Wie viele davon sind Kassenärzte, wie viele Wahlärzte?
  • Wie viele Mediziner mit einer bestimmten Fachrichtung gibt es in jedem Bezirk/Bundesland/Österreich? Wie viele davon sind Kassenärzte, wie viele Wahlärzte?
  • Wie groß ist jeweils der weibliche/männliche Anteil an Ärzten?
  • Welche Fremdsprachenkenntnisse, Diplome, Zusatzgebiete etc. bieten Österreichs Ärzte an?
  • Welche Öffnungszeiten geben Österreichs Ärzte an? In welchen Regionen ist es für Patienten möglich, am Freitagnachmittag oder am Wochenende einen Arzt zu konsultieren?
  • Wie viele Verträge gibt es mit welcher Krankenkasse?
  • In welchem Verhältnis stehen die Anzahlen von Kassenärzten und Wahlärzten sowie in welchem Verhältnis stehen ihre angegebenen Gesamtöffnungszeiten?
  • Wo gibt es die meisten Gruppenpraxen?

Methoden
Mittels Java und Selenium werden die wesentlichen Inhalte jeder bundeslandspezifischen Ärztekammer-Webseite gescrapet und in je einem xml-File hierarchisch strukturiert abgespeichert. In Python werden dann das Preprocessing und das Zusammenführen der xmls zu einem Österreich-File durchgeführt, bevor diverse auswertungsrelevante Daten ergänzt bzw. vereinheitlicht werden. Durch die Verwendung von Zuordnungslisten können so etwa

  • Arztordinationen über die ausgelesene Postleitzahl einem Bezirk zugeordnet werden
  • Arztordinationen sowie Ärzte und Ärztinnen selbst einer bestimmten Fachgruppe zugewiesen werden
  • die angegebenen textlichen Informationen über Kassenverträge auf die für den HVB interessanten Krankenkassen BVA, GKK, SVA, SVB und/oder VAEB abgebildet werden
  • die in Nieder- und Oberösterreich vorhandenen Informationen, ob eine Ordination eine Gruppenpraxis ist oder nicht, verarbeitet werden
  • in den anderen Bundesländern automatisiert Gruppenpraxen erkannt werden
  • Öffnungsstunden pro Tag sowie die Anzahl der Wochenöffnungsstunden für jene Ordinationen berechnet werden, für die Daten auf den Webseiten vorhanden sind.

Die derart aufbereiteten Daten werden anschließend automatisch aus dem xml-File in eine postgresql-Datenbank auf dem Research Server eingespielt.

Dieser Vorgang erfolgt in periodischer Wiederholung, so dass auch zeitliche Entwicklungen der Antworten auf diverse Fragestellungen erfasst werden können. Die Ergebnisvisualisierung erfolgt im Versorgungsatlas.