Apache Spark concept with Random Parts of Program Code.Apache Sp

Apache Spark: Wozu dient diese Engine zur Verarbeitung von XXL-Daten?

Mit nur einem Computer können Sie eine Reihe von Aufgaben erledigen. Dies kann Büroautomation oder Multimedia sein. Bei anderen, komplexeren Arbeiten wie der Datenverarbeitung stößt Ihr PC jedoch schnell an seine Grenzen. Sie benötigen mehrere vernetzte Computer. Apache Spark ist die Analyse-Engine, die es ermöglicht, die Bemühungen mehrerer in Clustern gruppierter Maschinen zu koordinieren. Entdecken Sie alles mit einfachen Worten!

Das Open-Source-Projekt Apache Spark

Apache Spark ist auf Big Data spezialisiert und ein einheitliches, sehr umfangreiches Datenanalysesystem. Dieses leistungsstarke Tool entstand 2009 aus der Fantasie von Matei Zaharia und stellt Ihnen die Ressourcen mehrerer Computer zur Verfügung, die in Clustern miteinander verbunden sind. Der kanadische Informatiker hinter diesem Programm entwickelte es im Rahmen seiner Doktorarbeit an der University of Berkeley, Kalifornien im Westen der USA.

Das Spark-Datenverarbeitungstool ist in seinen Kinderschuhen für Hadoop-Systeme konzipiert. Dann wuchs das Projekt und wurde autonom. Es wird von der Apache Foundation verwaltet, einer gemeinnützigen Organisation, die eine ganze Flotte von Open-Source-Software und -Servern besitzt. Da es sich um ein offenes Ökosystem handelt, verbessert sich Spark ständig.

Rund 1.200 Entwickler haben sich die Hände schmutzig gemacht. Einige dieser Mitwirkenden kommen von Unternehmen wie Intel, IBM oder Netflix. Wie Sie vielleicht verstanden haben, kann dieses Programm an die Bedürfnisse der Benutzer angepasst werden. Für Ebay und Facebook beispielsweise ermöglicht es Ihnen, eine gezielte Kampagne zu starten. Pinterest nutzt es, um „trendige“ Fotos hervorzuheben.

Aufnahme in die Datenverarbeitung

Im Jahr 2014 gewann Apache Spark den Daytona Grey Sort-Wettbewerb. Es stellt einen Rekord für die Datensortierung in großem Maßstab auf, indem es 100 Terabyte an Daten in etwa zwanzig Minuten analysiert. Das ist dreimal schneller als der Hadoop MapReduce-Cluster von Yahoo, der die gleiche Mission in 72 Minuten abschließt. Der revolutionäre Betrieb des Open-Source-Systems nutzt nur 206 Knoten statt der 2100 Knoten beim bisherigen Rekordhalter.

Die Anzahl der Knoten gibt die Anzahl der Computer an, die zum Computernetzwerk beitragen. Apache Spark erweist sich als dreimal effizienter und verfügt über zehnmal weniger PCs. Als unbestrittener Marktführer in der Datensortierung gelang es dem Cluster, 1 Petabyte an Daten zu analysieren. Dies entspricht 10 Billionen Datensätzen, verteilt auf 190 Maschinen. Eine großartige Premiere, denn diese technische Meisterleistung ist in weniger als vier Stunden vollbracht.

A lire également  Wetransfer: Wie nutzt man diesen kostenlosen Datenübertragungsdienst?

Apache Spark war das erste Datenverarbeitungstool in einer öffentlichen Cloud, das eine Petabyte-Größe erreichte. Stellen Sie sich für einen Moment vor, Sie verstehen das Äquivalent von 1 Million Milliarden Bytes in wenigen Minuten. Dieses Sortiertool ist nicht nur sehr schnell, sondern hat auch den Vorteil, dass es skalierbar ist. Seine Grenzen werden ständig erweitert, um den Bedürfnissen anspruchsvoller Benutzer gerecht zu werden. Sie sind im Allgemeinen große Namen im Cloud Computing.

Weitere gute Gründe, diesen Cluster zu zähmen

Spark hat Hadoop entthront, indem es bis zu 100-mal mehr Leistung bietet. Die Besonderheit besteht darin, dass weniger Ressourcen für prägnante Ergebnisse benötigt werden. Zudem bleibt die Handhabung dieses Großprogramms relativ einfach. Aus diesem Grund haben viele Entwickler zu dem Projekt beigetragen. Die Aufgabenausführung ist im Vergleich zu MapReduce, dem anderen großen Namen in der Datenwissenschaft, dreimal schneller.

Spark-Analysen können ohne Ressourcenverbrauch ausgefeilt werden. Es liegt an jedem Programmierer, es entsprechend seinen Bedürfnissen zu gestalten. Die APIs bleiben jedoch stets einfach zu bedienen. Das verleiht dem Programm Vielseitigkeit. Die Verarbeitung kann in einem Flow erfolgen. Es ist auch möglich, sehr leicht verständliche Grafiken zu erhalten. Das System bleibt mit Java-, R-, Scala- und Python-Anwendungen kompatibel. Pragmatisch verwaltet er SQL-Abfragen perfekt.

Basierend auf maschinellem Lernen umfasst Spark viele Standardbibliotheken. Um die Produktivität zu steigern, kombiniert es einen komplexen Workflow. Die Daten werden stapelweise verarbeitet. Dank eines DAG-Schedulers werden sie im Streaming verwaltet. Zusätzlich zu seinen vielfältigen Funktionalitäten gibt es einen Abfrageoptimierer und eine physische Ausführungs-Engine.

Ein leistungsstarkes Tool für Profis

Als einheitliche Analyse-Engine richtet sich Spark vor allem an Unternehmen. Professionelle Nutzer kommen aus verschiedenen Bereichen, darunter soziale Medien, E-Commerce und Video-on-Demand. Diese Unternehmen nutzen es für gezielte Marketingkampagnen, Produktempfehlungen sowie Cybersicherheit.

Mit ihren 1.200 Mitwirkenden ist sie die größte Community rund um Open-Source-Software. Zu den verfügbaren Filialen gehören:

  • Spark MLlib, die Bibliothek für maschinelles Lernen. Es ermöglicht Ihnen das Klassifizieren, Filtern, Regressieren, Clustern, Komprimieren usw.
  • Spark SQL ist der Executor in SQL-Sprachen, der Daten transformiert.
  • Echtzeit-Stream-Verarbeitungstool für Spark-Streaming.
  • Spark graphX, das Grafiken anbietet.