Yahoo!, O Grande Case do Hadoop Para Big Data

maio 12th, 2010 | by suissa | bigtable, cassandra, hadoop

mai
12

Hadoop está ganhando cada vez mais mais aceitação comercial. Estamos vendo uma série de sinais de sua crescente popularidade. Conversamos recentemente com um executivo do Yahoo! e ficou bastante claro que a empresa está reconstruindo seu futuro no armazenamento distribuído e em tecnologias de análises de grandes volumes de dados.

É um caminho similar ao que estamos vendo com as grandes redes sociais e fornecedores de computação em nuvem. O Facebook usa o Hadoop para fazer análises sociais mais elaboradas que fortalecem a capacidade de fornecer o alto nível estabelecido de qualidade das suas recomendações sociais. O Windows Azure também está adotando o Hadoop.

Em uma ligação recente do Eric Baldeschwieler, vice-presidente do Hadoop, para o Yahoo!, foi falado que o Hadoop está no núcleo da reconstrução do Yahoo!, sendo indispensável para seu futuro.

Perguntamos para ele por email o que o Hadoop acrescentará para o futuro do Yahoo!.

Aqui está sua declaração preparada:

“A visão do Yahoo! é se tornar o centro da vida das pessoas online fornecendo experiências relevantes na web. Pense no Hadoop como uma camada da fundação sob dois dos mais preciosos empreendimentos do Yahoo!: seus dados de usuários e sua coleção de conteúdo diversificado. Para o Yahoo!, o processamento e análise de dados é a chave para a compreensão da sua enorme audiência global, enriquecendo produtos e conectando os usuários com anunciantes.

Como o Hadoop está cada vez mais se tornando um armazém de dados para o Yahoo!, a empresa espera acelerar o ritmo de inovação em todas as experiências de seus consumidores e anunciantes.”

O Yahoo! começou a usar o Hadoop inicialmente em 2006 como um projeto de ciência para processar e analisar grandes conjuntos de dados. Eles desenvolveram um protótipo em 20 nodes(instâncias). Hoje, o Yahoo! gerencia mais de 25.000 nodes de análise e processamento de dados.

O Yahoo! descobriu que o desenvolvimento de seus produto poderia ser feito em uma fração de tempo com o Hadoop. Eles viram que poderiam jogar máquinas em um projeto para processar cada vez mais rápido e assim rentabilizar mais aceleradamente. O que antes levava 29 dias pode ser feito em menos de um.

Como resultado, o Yahoo! começou a integrar o Hadoop em todas as partes do seu negócio. A empresa esvaziou os dados do departamento de TI e os armazenou em um cluster.

Hoje, o Yahoo! utiliza o Hadoop para determinar a melhor posição da publicidade e para otimização de conteúdo. Por exemplo, a empresa começou a testar a forma como a otimização trabalha na página inicial, servindo conteúdo relevante ao usuário. E funcionou. O Yahoo! viu um aumento de 150% nas métricas de engajamento dos usuários com sua home.

O Hadoop está se tornando o padrão para processamento dados e analytics em redes sociais, em projetos como o genoma, no IBM Big Sheets e vários outros. Alguns vêem isso como prova de que ele ganhou aceitação comercial. E recentemente houve um grande aumento no número de vagas para uso da tecnologia no mercado. Já temos notícias também de algumas empresas usando Hadoop no Brasil. E você, aposta no uso do Hadoop se tornando cada vez mais mainstream?

Quem será o próximo grande player dos projetos relacionados a Big Data? Alguém disse Cassandra?

artigo retirado de: http://readwriteweb.com.br/2010/05/11/yahoo-ve-no-hadoop-a-solucao-de-seus-problemas/

2 Comments »

Bancos de dados não relacionais e o movimento NoSQL

maio 5th, 2010 | by suissa | bigtable, couchdb, escalabilidade, nosql

mai
05

O CouchDB é um dos mais famosos no time dos key-value stores. Ele usadocumentos para definir uma estrutura no banco, armazenando uma chave associada ao um documento. Um documento é apresentado como JSON. Por exemplo:

{

  "Subject": "Bancos não relacionais"
  "Author": "Nico Stepat"
  "PostedDate": "10/15/2009"
  "Tags": ["database", "nosql", "rest"]
}

Repare a estrutura dos dados é definido através da aplicação, o CouchDB não exige nada, apenas um documento JSON.

Talvez o CouchDB ficou famoso por causa da simples API REST e do uso do JSON, ou da interface grafica bonita ou por causa dos views interessantes usando Map-Reduce ou da replicação Multi-Master ou por que foi escrito em Erlang (como esse eesse também). Seja que for, a promessa principal do NoSQL – sendo escalável – o CouchDB não compriu ainda. Ele não é distribuído sozinho, e precisa de ajudaexterna para tal.

Outra forma de dar alguma estrutura aos dados ficou famosa por causa do Google Bigtable. A idéia é não salvar os dados em linhas como estamos acustomados pelos bancos relacionais. Os dados serão salvos através de colunas. Veja a diferença:

Row-Oriented (3 rows presentes – Nome, Salário, Data):

João,1432.00,15/10/2009
Maria,1511.00,13/10/2009
Pedro,1721.00,01/10/2009

Column-Oriented (mesmo exemplo):

João,Maria,Pedro
1432.00,1511.00,1721.00
15/10/2009,13/10/2009,01/10/2009

No column-oriented vem primeiro TODOS os dados da primeira coluna Nome, depois a segunda coluna Salario e por último a coluna Data.

O artigo completo se encontra em:  http://blog.caelum.com.br/2009/10/30/bancos-de-dados-nao-relacionais-e-o-movimento-nosql/

1 Comment »