BTW Logo

Beitrag Poster Foliensatz


Zeit: 09:00-10:00 Uhr
Ort: Physik HS1
Session Chair: Felix Naumann (Hasso Plattner Institut, Universität Potsdam)

  • Ihab Ilyas (University of Waterloo):
    Building Scalable Machine Learning Solutions for Data Cleaning

Machine learning tools promise to help solve data curation problems. While the principles are well understood, the engineering details in configuring and deploying ML techniques are the biggest hurdle. In this talk I discuss why leveraging data semantics and domain-specific knowledge is key in delivering the optimizations necessary for truly scalable ML curation solutions. The talk focuses on two main problems: (1) entity consolidation, which is arguably the most difficult data curation challenge because it is notoriously complex and hard to scale; and (2) using probabilistic inference to suggest data repair for identified errors and anomalies using our new system called HoloClean. Both problems have been challenging researchers and practitioners for decades due to the fundamentally combinatorial explosion in the space of solutions and the lack of ground truth. There’s a large body of work on this problem by both academia and industry. Techniques have included human curation, rules-based systems, and automatic discovery of clusters using predefined thresholds on record similarity Unfortunately, none of these techniques alone has been able to provide sufficient accuracy and scalability. The talk aims at providing deeper insight into the entity consolidation and data repair problems and discusses how machine learning, human expertise, and problem semantics collectively can deliver a scalable, high-accuracy solution.


Zeit: 10:00-10:30 Uhr
Ort: Physik HS1

Session 6: Query Processing and Optimization II

Zeit: 11:00-12:30 Uhr
Ort: Physik HS1
Session Chair: Wolfgang Lehner (TU Dresden)
Typ: parallel mit Session 7 und Tutorial

  • Maximilian Schüle (TU München), Linnea Passing (TU München), Alfons Kemper (TU München) und Thomas Neumann (TU München):
    Ja-(zu-)SQL: Evaluation einer SQL-Skriptsprache für Hauptspeicherdatenbanksysteme
    (wissenschaftliches Programm, Kurzbeitrag)

  • Adrian Bartnik (Technische Universität Berlin), Bonaventura Del Monte (DFKI GmbH), Tilmann Rabl (Technische Universität Berlin, DFKI GmbH) und Volker Markl (Technische Universität Berlin, DFKI GmbH):
    On-the-fly Reconfiguration of Query Plans for Stateful Stream Processing Engines
    (wissenschaftliches Programm, Langbeitrag)

  • Yvonne Hegenbarth (Software AG) und Gerald Ristow (Software AG):
    Konzept und Implementierung eines echtzeitfähigen Model Management Systems – am Beispiel zur Überwachung von Lastprognosen für den Intraday Stromhandel
    (Industrieprogramm, Langbeitrag)

Session 7: Similarity

Zeit: 11:00-12:30 Uhr
Ort: Zuse 037
Session Chair: Thomas Seidl (LMU München)
Typ: parallel mit Session 6 und Tutorial

  • Jan Martin Keil (Friedrich Schiller University Jena):
    Efficient Bounded Jaro-Winkler Similarity Based Search
    (wissenschaftliches Programm, Kurzbeitrag)

  • Xiao Chen (Otto-von-Guericke-Universität Magdeburg), Gabriel Campero Durand (Otto-von-Guericke-Universität Magdeburg), Roman Zoun (Otto-von-Guericke-Universität Magdeburg), David Broneske (Otto-von-Guericke-Universität Magdeburg), Yang Li (Otto-von-Guericke-Universität Magdeburg) und Gunter Saake (Otto-von-Guericke-Universität Magdeburg):
    The Best of Both Worlds: Combining Hand-Tuned and Word-Embedding-Based Similarity Measures for Entity Resolution
    (wissenschaftliches Programm, Kurzbeitrag)

  • Michael Günther (Technische Universität Dresden), Maik Thiele (Technische Universität Dresden) und Wolfgang Lehner (Technische Universität Dresden):
    Fast Approximated Nearest Neighbor Joins For Relational Database Systems
    (wissenschaftliches Programm, Langbeitrag)

Sponsor-Tutorial zu Actian Vector

Zeit: 11:00-12:30 Uhr
Ort: Zuse 001

Session 8: Machine Learning

Zeit: 13:30-15:00 Uhr
Ort: Physik HS1
Session Chair: Kai-Uwe Sattler (TU Ilmenau)
Typ: parallel mit Demos

  • Maximilian Schüle (TU München), Frédéric Simonis (TU München), Thomas Heyenbrock (TU München), Alfons Kemper (TU München), Stephan Günnemann (TU München) und Thomas Neumann (TU München):
    In-Database Machine Learning: Gradient Descent and Tensor Algebra for Main Memory Database Systems
    (wissenschaftliches Programm, Langbeitrag)

  • Matthias Boehm (Graz University of Technology), Alexandre Evfimievski (IBM Research – Almaden, San Jose) und Berthold Reinwald (IBM Research – Almaden, San Jose):
    Efficient Data-Parallel Cumulative Aggregates for Large-Scale Machine Learning
    (wissenschaftliches Programm, Langbeitrag)

  • Lars Bremer (IBM Germany Research & Development GmbH), Mariya Chkalova (IBM Germany Research & Development GmbH) und Martin Oberhofer (IBM Germany Research & Development GmbH):
    Machine Learning Applied to the Clerical Task Management Problem in Master Data Management Systems
    (Industrieprogramm, Langbeitrag)

Demogruppe 2

Zeit: 13:30-15:00 Uhr
Ort: Zuse 210
Typ: parallel mit Session 8

  • Jurica Seva (HU Berlin), Julian Goetze (Universitätshospital Tübingen), Mario Lamping (Charité), Damian Tobias Rieke (Charité, Berlin Institute of Health), Reinhold Schäfer (Deutsches Krebsforschungszentrum) und Ulf Leser (HU Berlin):
    Information Retrieval for Precision Oncology

  • Alexander Krause (TU Dresden), Annett Ungethüm (TU Dresden), Thomas Kissinger (TU Dresden), Dirk Habich (TU Dresden) und Wolfgang Lehner (TU Dresden):
    NeMeSys – Energy Adaptive Graph Pattern Matching on NUMA-based Multiprocessor Systems

  • Thomas Lindemann (TU Dortmund), Patrick Brinkmann (TU Dortmund), Fadi Dalbah (TU Dortmund), Christian Hakert (TU Dortmund), Philipp-Jan Honysz (TU Dortmund), Daniel Matuszczyk (TU Dortmund), Nikolas Müller (TU Dortmund), Alexander Schmulbach (TU Dortmund), Stefan Petyov
    Todorinski (TU Dortmund), Oliver Tüselmann (TU Dortmund), Shimon Wonsak (TU Dortmund), Jens Teubner (TU Dortmund):
    MAGPIE: A Scalable Data Storage System for Efficient High Volume Data Queries

  • Daniyal Kazempour (LMU München), Maksim Kazakov (LMU München), Peer Kröger (LMU München) und Thomas Seidl (LMU München):
    DICE: Density-based Interactive Clustering and Exploration

  • Stefan Hagedorn (TU Ilmenau), Oliver Birli (TU Ilmenau) und Kai-Uwe Sattler (TU Ilmenau):
    Processing Large Raster and Vector Data in Apache Spark

  • Mark Lukas Möller (Universität Rostock), Nicolas Berton (ENSEIRB-MATMECA), Meike Klettke (Universität Rostock), Stefanie Scherzinger (OTH Regensburg) und Uta Störl (Hochschule Darmstadt):
    jHound: Large-Scale Profiling of Open JSON Data

  • M. Ali Rostami (Universität Leipzig, ScaDS Dresden Leipzig), Eric Peukert (Universität Leipzig, ScaDS Dresden Leipzig), Moritz Wilke (Universität Leipzig, ScaDS Dresden Leipzig) und Erhard Rahm (Universität Leipzig, ScaDS Dresden Leipzig):
    Big graph analysis by visually created workflows

  • Roman Zoun (Universität Magdeburg), Kay Schallert (Universität Magdeburg), David Broneske (Universität Magdeburg), Wolfram Fenske (Universität Magdeburg), Marcus Pinnecke (Universität Magdeburg), Robert Heyer (Universität Magdeburg), Sven Brehmer (Bruker Daltonik GmbH), Dirk Benndorf (Universität Magdeburg) und Gunter Saake (Universität Magdeburg):
    MSDataStream – Connecting a Bruker Mass Spectrometer to the Internet

Session 9: Challenges in Data Processing

Zeit: 15:30-17:00 Uhr
Ort: Zuse 037
Session Chair: Andreas Heuer
Typ: parallel zu Sponsor-Tutorial zu Exasol und Demo-Session 2

  • Christoph Gröger (Robert Bosch GmbH) und Eva Hoos (Robert Bosch GmbH):
    Ganzheitliches Metadatenmanagement im Data Lake: Anforderungen, IT-Werkzeuge und Herausforderungen in der Praxis
    (Industrieprogramm, Langbeitrag)

  • Kai-Uwe Sattler (TU Ilmenau):
    Vorstellung des DFG-Schwerpunktprogramms "Skalierbares Datenmanagement für zukünftige Hardware" (SPP 2037) 

  • Posterausstellung des SPP 2037 im Atrium

Sponsor-Tutorial zu Exasol

Zeit: 15:30-17:00 Uhr
Ort: Zuse 219
Typ: parallel zu Session 9 und Demo-Session 2

Demo-Session 2

Zeit: 15:30-17:00 Uhr
Ort: Zuse 210
Typ: parallel zu Session 9 und Sponsor-Tutorial zu Exasol

Vollversammlung FGDB

Zeit: 17:00-18:00 Uhr
Ort: Zuse 037
Leitung: Felix Naumann (Hasso Plattner Institut, Universität Postsdam)


Zeit: ab 19:00 Uhr
Ort: Radisson Blu Hotel