Zeit: 09:00-10:00 Uhr
Ort: Physik HS1
Session Chair: Felix Naumann (HPI, Uni Potsdam)

  • Ihab Ilyas (U Waterloo):
    Building Scalable Machine Learning Solutions for Data Cleaning

Machine learning tools promise to help solve data curation problems. While the principles are well understood, the engineering details in configuring and deploying ML techniques are the biggest hurdle. In this talk I discuss why leveraging data semantics and domain-specific knowledge is key in delivering the optimizations necessary for truly scalable ML curation solutions. The talk focuses on two main problems: (1) entity consolidation, which is arguably the most difficult data curation challenge because it is notoriously complex and hard to scale; and (2) using probabilistic inference to suggest data repair for identified errors and anomalies using our new system called HoloClean. Both problems have been challenging researchers and practitioners for decades due to the fundamentally combinatorial explosion in the space of solutions and the lack of ground truth. There’s a large body of work on this problem by both academia and industry. Techniques have included human curation, rules-based systems, and automatic discovery of clusters using predefined thresholds on record similarity Unfortunately, none of these techniques alone has been able to provide sufficient accuracy and scalability. The talk aims at providing deeper insight into the entity consolidation and data repair problems and discusses how machine learning, human expertise, and problem semantics collectively can deliver a scalable, high-accuracy solution.


Zeit: 10:00-10:30 Uhr
Ort: Physik HS1

Session 6: Query Processing and Optimization II

Zeit: 11:00-12:30 Uhr
Ort: Physik HS1
Session Chair: Wolfgang Lehner (TU Dresden)
Typ: parallel mit Session 7 und Tutorial

  • Maximilian Schüle (TU München), Linnea Passing (TU München), Alfons Kemper (TU München) und Thomas Neumann (TU München):
    Ja-(zu-)SQL: Evaluation einer SQL-Skriptsprache für Hauptspeicherdatenbanksysteme
    (wissenschaftliches Programm, Kurzbeitrag)

  • Adrian Bartnik (Technische Universität Berlin), Bonaventura Del Monte (DFKI GmbH), Tilmann Rabl (Technische Universität Berlin - DFKI GmbH) und Volker Markl (Technische Universität Berlin - DFKI GmbH):
    On-the-fly Reconfiguration of Query Plans for Stateful Stream Processing Engines
    (wissenschaftliches Programm, Langbeitrag)

  • Yvonne Hegenbarth (Software AG) und Gerald Ristow (Software AG):
    Konzept und Implementierung eines echtzeitfähigen Model Management Systems - am Beispiel zur Überwachung von Lastprognosen für den Intraday Stromhandel
    (Industrieprogramm, Langbeitrag)

Session 7: Similarity

Zeit: 11:00-12:30 Uhr
Ort: Zuse 037
Session Chair: Thomas Seidl (LMU München)
Typ: parallel mit Session 6 und Tutorial

  • Jan Martin Keil (Friedrich Schiller University Jena):
    Efficient Bounded Jaro-Winkler Similarity Based Search
    (wissenschaftliches Programm, Kurzbeitrag)

  • Xiao Chen (Otto-von-Guericke-University of Magdeburg), Gabriel Campero Durand (Otto-von-Guericke-University of Magdeburg), Roman Zoun (Otto-von-Guericke-University of Magdeburg), David Broneske (Otto-von-Guericke-University of Magdeburg), Yang Li (Otto-von-Guericke-University of Magdeburg) und Gunter Saake(Otto-von-Guericke-University of Magdeburg):
    The Best of Both Worlds: Combining Hand-Tuned and Word-Embedding-Based Similarity Measures for Entity Resolution
    (wissenschaftliches Programm, Kurzbeitrag)

  • Michael Günther (Technische Universität Dresden), Maik Thiele (Technische Universität Dresden) und Wolfgang Lehner (Technische Universität Dresden):
    Fast Approximated Nearest Neighbor Joins For Relational Database Systems
    (wissenschaftliches Programm, Langbeitrag)

Sponsor-Tutorial zu Actian Vector

Zeit: 11:00-12:30 Uhr
Ort: Zuse 001

Session 8: Machine Learning

Zeit: 13:30-15:00 Uhr
Ort: Physik HS1
Session Chair: Kai-Uwe Sattler (TU Ilmenau)
Typ: parallel mit Demos

  • Maximilian Schüle (TU Munich), Frédéric Simonis (TU Munich), Thomas Heyenbrock (TU Munich), Alfons Kemper (TU Munich), Stephan Günnemann (TU Munich) und Thomas Neumann (TU Munich):
    In-Database Machine Learning: Gradient Descent and Tensor Algebra for Main Memory Database Systems
    (wissenschaftliches Programm, Langbeitrag)

  • Matthias Boehm (Graz University of Technology), Alexandre Evfimievski (IBM Research – Almaden, San Jose) und Berthold Reinwald (IBM Research – Almaden, San Jose):
    Efficient Data-Parallel Cumulative Aggregates for Large-Scale Machine Learning
    (wissenschaftliches Programm, Langbeitrag)

  • Lars Bremer (IBM Germany Research & Development GmbH), Mariya Chkalova (IBM Germany Research & Development GmbH) und Martin Oberhofer (IBM Germany Research & Development GmbH):
    Machine Learning Applied to the Clerical Task Management Problem in Master Data Management Systems
    (Industrieprogramm, Langbeitrag)

Demo-Session 2

Zeit: 13:30-15:00 Uhr
Ort: Zuse 210
Typ: parallel mit Session 8

  • Jurica Seva, Julian Goetze, Mario Lamping, Damian Tobias Rieke, Reinhold Schaefer und Ulf Leser:
    Information Retrieval for Precision Oncology

  • Alexander Krause, Annett Ungethüm, Thomas Kissinger, Dirk Habich und Wolfgang Lehner:
    NeMeSys - Energy Adaptive Graph Pattern Matching on NUMA-based Multiprocessor Systems

  • Thomas Lindemann und Jens Teubner:
    MAGPIE: A Scalable Data Storage System for Efficient High Volume Data Queries

  • Daniyal Kazempour, Maksim Kazakov, Peer Kröger und Thomas Seidl:
    DICE: Density-based Interactive Clustering and Exploration

  • Stefan Hagedorn, Oliver Birli und Kai-Uwe Sattler:
    Processing Large Raster and Vector Data in Apache Spark

  • Mark Lukas Möller, Nicolas Berton, Meike Klettke, Stefanie Scherzinger und Uta Störl:
    jHound: Large-Scale Profiling of Open JSON Data

  • M. Ali Rostami, Eric Peukert, Moritz Wilke und Erhard Rahm:
    Big graph analysis by visually created workflows

  • Roman Zoun, Kay Schallert, David Broneske, Wolfram Fenske, Marcus Pinnecke, Robert Heyer, Sven Brehmer, Dirk Benndorf und Gunter Saake:
    MSDataStream - Connecting a Bruker Mass Spectrometer to the Internet

Session 9: Challenges in Data Processing

Zeit: 15:30 - 17:00
Ort: Zuse 037
Session Chair: Andreas Heuer
Typ: parallel zu Sponsor-Tutorial zu Exasol und Demo-Session 2

  • Christoph Gröger (Robert Bosch GmbH) und Eva Hoos (Robert Bosch GmbH):
    Ganzheitliches Metadatenmanagement im Data Lake: Anforderungen, IT-Werkzeuge und Herausforderungen in der Praxis
    (Industrieprogramm, Langbeitrag)

  • Kai-Uwe Sattler (TU Ilmenau):
    Vorstellung des DFG-Schwerpunktprogramms " Skalierbares Datenmanagement für zukünftige Hardware" (SPP 2037) 

  • Posterausstellung des SPP 2037 im Atrium

Sponsor-Tutorial zu Exasol

Zeit: 15:30-17:00 Uhr
Ort: Zuse 219
Typ: parallel zu Session 9 und Demo-Session 2

Demo-Session 2

Zeit: 15:30-17:00 Uhr
Ort: Zuse 210
Typ: parallel zu Session 9 und Sponsor-Tutorial zu Exasol

Vollversammlung FGDB

Zeit: 17:00-18:00 Uhr
Ort: Zuse 037


Zeit: ab 19:00 Uhr
Ort: Radisson Blu Hotel