Big Data Analytics – Die Goldsuche der Zukunft?

Big Data Analytics ist ein zusammengesetztes Wort aus den beiden Buzzwords „Big Data“ und „Analytics“. Wer sich mit Big Data Analytics auseinandersetzt, der wendet analytische und/oder statistische Methoden auf Daten an, die mit Big Data Technologien bereitgestellt werden.

Zu den Big Data Technologien werden u.a. folgende Begriffe gezählt. Der gemeinsame Nenner dieser Technologien ist, dass sie mittels Technologien eine Performance-Skalierbarkeit (horizontale Skalierbarkeit, z.B. durch Parallelisierung) für extrem/beliebig hohe Datenmengen bereitstellen.

  • Apache Hadoop
  • Apache Spark
  • Apache Kafka
  • Cloudera-Distribution
  • Hortonworks-Distribution
  • InMemory-Datenbanken
  • Lambda-Architektur
  • Key-Value Store
  • Big Table
  • NoSQL (Not Only SQL)

Anbei ist eine Grafik zum Begriff „big data“ in Google Trends. Am Verlauf der Kurve erkennt man, dass der Hype um das Buzzword „Big Data“ seinen Zenit im März 2017 erreicht hat.

Bei dem Thema Analytics werden u.a. die folgenden analytische und statistischen Methoden zusammengefasst:

  • Clustering (Cluster-Bildung, Gruppierung)
    • k-Means Clustering
    • Density-based Clustering
    • Hierarchical Clustering
    • Density-based hierarchical clustering
  • Classification (Klassifikation)
    • Decision trees (Entscheidungsbäume)
    • Nearest Neighbour Classification
    • Bayesian Classifier
    • Linear Classifier
    • Support Vector Machines
    • Ensemble Classification
  • Frequent Itemset Mining
    • Apriori Algorithm
    • Frequent Pattern Tree
    • Frequent Pattern Growth
    • Maximal Frequent Itemsets
    • Association Rules
  • Outlier Mining
    • Distance-Based Outlier Mining
    • Density-Based Outlier Mining
    • Subspace Outlier Mining
  • Stream Mining
  • Graph Mining
  • Neuronale Netze

Der Begriff „analytics“ in Google Trends hat ähnlich wie das Buzzword „big data“ seinen Zenit (Februar 2012) schon längst überschritten. Allerdings muss man hier beachten, dass das Google-Product „Analytics“  einen großen Einfluss auf den Verlauf dieser Kurve hat.

Die analytischen Methoden gibt es schon seit längerem, jedoch konnten diese Methoden bisher nicht auf klassischen Datenhaltungshaltungssystemen (z.B. relationale, multidimensionale Datenbanken) in großem Umfang zum Einsatz kommen. Erst mit den Big Data Technologien ist es möglich große Datenmengen in kurzer Zeit mit diesen analytischen Methoden zu bearbeiten. Aus diesem Grund ist es durchaus legitim das Word Analytics mit dem Wort Big Data zusammenzusetzen und dem Ganzen somit einen neuen Kontext geben.

Weitere Informationsquellen