Hadoop

o que é o Hadoop? É, na pratica, uma combinação de dois projetos separados, que são o Hadoop MapReduce (HMR), que é um framework para processamento paralelo e o Hadoop Distributed File System (HDFS). O HMR é um spinoff do MapReduce, software que Google usa para acelerar as pesquisas endereçadas ao seu buscador. O HDFS é um sistema de arquivos distribuídos otimizados para atuar em dados não estruturados e é também baseado na tecnologia do Google, neste caso o Google File System.

Ecossistema Hadoop

O Ecossistema de soluções oferecidas para o Big Data

As tecnologias que sustentam Big Data podem ser analisadas sob duas óticas: as envolvidas com analytics, tendo Hadoop e MapReduce como nomes principais, e as tecnologias de infraestrutura, que armazenam e processam os petabytes de dados. Nesse aspecto, destacam-se os bancos de dados NoSQL (No significa not only SQL).

O Hadoop surgiu como uma solução adequada para Big Data por vários motivos:

É um projeto open source, fato que permite a sua modificação para fins de customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração.
Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas.
O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de dados.
O Hadoop é escalável: havendo necessidade de processamento para suportar maior quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema.