O big-data, ou análise de dados em massa, consiste na busca de padrões que têm algum tipo de poder de previsão. Mas escolher exatamente quais “características” dos dados devem ser analisadas, geralmente, requer alguma intuição humana.
Mas tudo isso acaba de ser facilitado
Pesquisadores do MIT que têm como objetivo levar o elemento humano para este contexto de análise de big-data, desenvolveram um novo sistema que não só procura por padrões, mas também projeta o conjunto de recursos também. Para testar o primeiro protótipo de seu sistema, eles se matricularam em três competições científicas de dados, em que competiram contra equipes humanas para encontrar padrões preditivos em conjuntos de dados desconhecidos.
Das 906 equipes participantes nas três competições, a “Máquina” dos pesquisadores terminou à frente de 615. Parece bom, não?
Das 906 equipes participantes nas três competições, a “Máquina” dos pesquisadores terminou à frente de 615. Parece bom, não?
Em duas das três competições, as previsões feitas pela máquina do MIT foram de 94 por cento e 96 por cento tão precisos quanto as apresentações vencedoras. Na terceira, o valor de precisão chegou a um modesto 87 por cento.
Mas tem um detalhe fundamental aí. Geralmente, onde as equipes de seres humanos tipicamente trabalham sobre os seus algoritmos de previsão por meses, a tal Máquina levou algo em torno de entre duas a 12 horas para produzir cada uma de suas entradas.
Isso significa que os humanos serão inúteis daqui para frente?
Calma. Ainda não. Para Max Kanter, cuja tese de mestrado em ciência da computação é a base para o desenvolvimento desta máquina incrível, a nova tecnologia pretende ser um complemento natural para a inteligência humana. Há muitos dados ainda para serem analisados e nós não devemos tirar conclusões precipitadas.
Uma revolução para o big data
Kanter e seu orientador de tese, Kalyan Veeramachaneni, cientista pesquisador do MIT em Ciência da Computação e no Laboratório de Inteligência Artificial (CSAIL), descreve a nova máquina de ciência de dados em um documento que Kanter vai apresentar na próxima semana, na Conferência Internacional sobre Ciência de Dados e Análise Avançada.
Veeramachaneni co-lidera um projeto de aprendizagem para todos grupo em CSAIL, que aplica técnicas de aprendizado de máquina para problemas práticos de análise de dados em massa, como a determinação da capacidade de geração de energia de sítios eólicos ou prever quais dos estudantes estão em maior risco de desistir de seus respectivos cursos. O que, para Veeramachaneni, significa um grande passo para a disciplina de engenharia de recurso.
Passo a passo
De acordo com o orientador, o que podemos observar a partir desta experiência é que a primeira coisa que devemos fazer é identificar as variáveis de um determinado banco de dados. Isso irá provocar uma série de raciocínios que já dão grandes passos para o desenvolvimento da tecnologia.
Na previsão de resolução, por exemplo, dois indicadores cruciais mostraram quanto tempo antes de um prazo chegar ao fim um estudante tem que começar a trabalhar em um conjunto de problemas e quanto tempo este estudante gasta para resolver o mesmo conjunto de problemas em relação aos seus colegas de classe. A plataforma de ensino a distância do MIT não registra nenhuma dessas estatísticas, mas coletar dados a partir do qual elas poderiam ser extraídas.
Composição
Kanter e Veeramachaneni usam alguns truques para fabricar características de candidatos para análises de dados. Uma delas é explorar as relações estruturais inerentes no projeto do banco de dados.
Bancos de dados normalmente armazenam diferentes tipos de dados em tabelas diferentes, indicando as correlações entre eles usando identificadores numéricos. A Máquina criada pelos gênios do MIT justamente rastreia essas correlações, usando-as como uma sugestão para caracterizar a construção.
Hã?
Por exemplo, uma tabela pode listar os itens de varejo e outra seus custos; outra pode listar os itens incluídos nas compras individuais de cada cliente. Como a tal máquina iria começar a trabalhar?
Bom, o primeiro passo dela é começar importando os custos da primeira tabela para o segundo.
Em seguida, fazer sugestões de associações entre vários itens diferentes na segunda tabela com o mesmo número de compra. Isso seria algo como executar um conjunto de operações para gerar recursos candidatos. Por exemplo: o custo total, o custo médio, o custo mínimo por encomenda, e assim por diante.
Como identificadores numéricos proliferam através de tabelas, a máquina apresenta as operações de camadas automáticas em cima de todos os dados disponíveis, encontrando mínimos das médias, médias de somas, e assim por diante. É uma coisa realmente muito complexa (e incrível na mesma medida).
Ela também olha para os chamados “dados categóricos”, que parecem ser restritos a uma gama limitada de valores, tais como dias da semana ou nomes de marcas. Em seguida, a máquina gera mais candidatos apresentando e dividindo os recursos existentes em todas as categorias.
Uma vez que é produzido um conjunto de candidatos, é reduzo o número de possibilidades, o que facilita o processo de identificação daqueles cujos valores parecem estar correlacionadas.
Acabou? Ainda não
Depois de tudo isso, a máquina começa a testar seu conjunto reduzido de recursos em dados de amostra, recombinando-os de diferentes maneiras para melhorar a precisão das previsões que forneceu originalmente.
Teoria na prática
A máquina de ciência de dados é um desses projetos incríveis onde pesquisas de ponta são aplicadas para resolver problemas práticos. Isso nos proporciona uma maneira inteiramente nova de olhar para o problema e, consequentemente, agiliza sua resolução.
http://hypescience.com/big-data/
AGORA VEJA ESSE EXCELENTE VIDEO EXPLICANDO COM FUNCIONA A INFLUÊNCIA DAS MÁQUINAS NA CIVILIZAÇÃO:
A REBELIÃO DAS MÁQUINAS