Bachelor's Thesis Tobias Schamel
Structured Extraction of Terms and Conditions from German and English Online Shops
Content Extraction, also die Extraktion des Hauptinhaltes einer Website, durch das Entfernen von Elementen wie Navigation und Header, ist ein wichtiger Schritt im Rahmen des Web Scrapings. Offene Bibliotheken wie trafilatura oder boilerpipe nutzen sogenannte shallow text features um den Inahlt von Blog-Beiträgen oder News-Artikeln zu extrahieren.
Im Rahmen des Projektes KI-gestützte juristische Prüfung von AGB zur Stärkung des Verbraucherschutzes erforscht der sebis Lehrstuhl den Einsatz von KI zur Unterstützung der juristischen Prüfung von AGB. Als wichtiger Schritt in der Verarbeitungspipeline muss hierfür der Text von AGB aus HTML-Seiten extrahiert werden, insbesondere unter Berücksichtigung der Hierarchite und Struktur des Textes, also insbesondere die Zugehörigkeit einzelner Klauseln zu Überschrift und Unterüberschriften. Die existieren Standardbibiliotheken sind hierfür nur sehr eingeschränkt geeignet, da sich der Aufbau von AGB deutlich von anderen Beiträgen unterscheidet, insbesondere durch relativ kurze Texteinheiten und deutlich verschachtelteren Hierarchien.
Im Rahmen der ausgeschriebenen Abschlussarbeit soll daher eine Python-Bibliothek entwickelt werden, die den Inhalt von deutschen und englischen AGB unter beibehaltung der Struktur extrahiert und in ein vorgegebenes JSON-Format (siehe Abbildung) umwandelt.
| Attribute | Value |
|---|---|
| Title (de) | Strukturierte Extraktion von AGB aus deutschen und englischen Onlineshops |
| Title (en) | Structured Extraction of Terms and Conditions from German and English Online Shops |
| Project | AI-Supported Legal Review of Terms and Conditions to Strengthen Consumer Protection (AGB-Check) |
| Type | Bachelor's Thesis |
| Status | completed |
| Student | Tobias Schamel |
| Advisor | Dr. Daniel Braun |
| Supervisor | Prof. Dr. Florian Matthes |
| Start Date | 15.03.2021 |
| Sebis Contributor Agreement signed on | 02.03.2021 |
| Checklist filled | Yes |
| Submission date | 16.08.2021 |