BigData and Hadoop

hadoop

Wielkie magazyny danych (data stores) stały się już faktem w życiu wielu organizacji. Zdolność do zarządzania nimi, przetwarzania i uzyskiwania wymiernych rezultatów z ich analizy szybko staje się normą a narzędzia i techniki służące przetwarzaniu dużych ilości niestrukturalizowanych danych stają się powszechne. Narzędzia takie jak Hadoop są szeroko stosowanym szkieletem służącym organizacjom IT do budowania własnych środowisk obsługujących masowo dane (ang. Big Data). Hadoop jest oprogramowaniem open-source, które pozwala przechowywać i przetwarzać duże ilości danych w środowisku rozproszonym klastrów komputerów za pomocą prostych modeli programowania. Przeznaczony jest do skalowania się od pojedynczych serwerów do tysięcy komputerów, z których każdy oferuje możliwość przeprowadzenia lokalnych obliczeń i danych przechowywania. Zawiera algorytm MapReduce i Hadoop Distributed File System.

Hadoop powstał jako projekt rozwijany przez Apache Foundation zainspirowany dokumentacją udostępnioną przez Google, przedstawiającą nowe rewolucyjne podejście do masowego przetwarzania i analizy dużych ilości danych. Hadoop stal się de-facto standardem dla przechowywania i przetwarzania setek terabajtów a nawet petabajtów danych.

Dzięki rozproszonej strukturze przechowywania ( Haddop Distributed File System – HDFS ) oraz przetwarzania ( map reduce ) Hadoop jest idealnym narzędziem dla wszystkich potrzebujących szybkiego dostepu do olbrzymich ilości danych. Jednocześnie dzięki zastosowaniu prostej infrastruktury sprzętowej pozwala drastycznie ograniczyć koszty w stosunku do „klasycznych” rozwiązań bazujących na macierzach dyskowych. W naszym obecnym świecie, w którym większość informacji znajduje się online a czas dostępu do niej jest wyznacznikiem konkurencyjności Hadoop pozwala stosunkowo niskim kosztem przetwarzać informacje, do których jeszcze niedawno potrzeba było skomplikowanych i kosztownych dedykowanych urządzeń.

Zbieramy dowolne typy danych z dowolnych systemów.

Hadoop może przetwarzać dowolne dane, ustrukturyzowane, nierestrukturyzowane, logi, meta dane, zdjęcia, pliki audio i wideo, emalie. Praktycznie wszystkie dane funkcjonujące we współczesnym świecie.  Informacje mogą być zapisywane w klastrze w postaci nieuporządkowanej. Użytkownik może zdecydować co z nimi zrobić później. Dzięki połączeniu danych w rożnych formatach i strukturach danych Hadoop pozwala na znalezienie niewidocznych na pierwszy rzut oka relacji i zależności.

Z prostych klocków budujemy zaawansowane rozwiązania.

Wydajność, skalowalność, proste utrzymanie.

Ponieważ w zamyśle autorów Hadoop ma być przede wszystkim ekonomicznym i efektywnym narzędziem, odpowiedni dobór platform sprzętowych na potrzeby klastra pozwala na optymalne wykorzystanie zasobów sprzętowych. Hadoop posiada od razu wbudowaną w system redundancję co umożliwia użycie tanich, powszechnie stosowanych platform serwerowych, dysków twardych, procesorów oraz przełączników sieciowych. Jednak właściwy ich dobór zapewnia optymalną wydajność oraz efektywność energetyczną. Przy dużych instalacjach podstawowe znaczenie ma również przestrzeń zajmowana przez klaster (rack space).

Podstawowym problemem jest znalezienie właściwej proporcji pomiędzy zasobami liczącymi (CPU), przestrzenią dyskową i zasobami sieciowymi. Relacje przedstawia następujący rysunek:

wykres

Rozwiązania Hadoop FORMAT zapewniają optymalne parametry użytkowe zarówno jeśli chodzi o pojemność przestrzeni użytkowej do przechowywania danych jak i moc obliczeniową. PDF_ico

System może być zbalansowany w zależności od wymagań klienta. Można stosować dowolne proporcje pomiędzy przestrzenią dyskową oraz ilością CPU i RAM.

Połączenia między Nodami na bazie sieci Ethernet (gigabit, 10 gigabit, 40 gigabit) w zależności od strumienia przetwarzanych danych.

apache_big_1

apache_big_2

14U Hadoop Rack14U Hadoop Rack BOM42U Hadoop Rack42U Hadoop Rack BOM
• Optimized 14U Hadoop Rack
• IPMI 2.0 + KVM with dedicated LAN
for remote management
• Cost effective, high performance,
power efficient server nodes
• 2 Primary / Secondary Name Nodes
64 GB Memory Per Node
• 8 Data Nodes
32 GB Memory Per Node
• 48TB Raw HDFS Capacity
• 2x Intel® Xeon® E5-2600 Processors
per Node
• Platinum Level (94%) efficient power
supplies
• 2x SYS-HNW0-15026364-HADP
• 4x SYS-HDT0-27126332-HADP
• 1x SSE-G48-TG4 (48 Ports )
• 1x SC512 1U Server (Cluster SSM
Server Management)
• 1x 2U PDU
• Integrated, Cabled, Labeled, Tested,
Crated and Shipped as turnkey rack
PN# SRS-14UL63-HADP-TL
• Optimized 42U Hadoop Rack
• IPMI 2.0 + KVM with dedicated LAN
for remote management
• Cost effective, high performance,
power efficient server nodes
• 3x Primary / Secondary Name Nodes
64 GB Memory Per Node
• 36x Data Nodes
32 GB Memory Per Node
• 216-1728TB Raw HDFS Capacity
• 2x Intel® Xeon® E5-2600 Processors
per Node
• Platinum Level (94-95%) efficient
power supplie
• 3x SYS-HNWX-19026364-HADP
• 18x SYS-HDTX-27126332-HADP
• 1x SSE-G48-TG4 (48 1G Ports)
• 1xSSE-X3348SR (48 Ports 10G SFP+)
• 1x SC512 1U Server (Cluster SSM
Server Management)
• 4x PDU
• Integrated, Cabled, Labeled, Tested,
Crated and Shipped as turnkey rack
PN# SRS-42XL63-HADP-TL
• 42U Fat Twin Hadoop Lead Rack
PN# SRS-42XL63-HADP-FL

Organizacje używają Hadoopa jako skalowalną pamięć przechowywania i przetwarzania ogromnych ilości danych za pomocą rozproszony model obliczeniowej. Od swoich korzeni jako projekt open source Apache Hadoop jest przez lata modyfikowany przez różnych użytkowników, takich jak Yahoo !, EMC2, Apple, i Facebook. System jest w stanie zarządzać niewiarygodnie ogromnymi ilościami danych cyfrowych, które są tworzone w każdej sekundzie. Jeżeli są stosowane prawidłowo, dane te mogą prowadzić do gry zmieniającej decyzje w biznesie, technologii, polityce i życiu codziennym.

Zapraszamy do kontaktu z działem handlowym.

Top