“Máquina de Ciência de Dados” substitui a intuição humana com algoritmos
Engenheiros do MIT
desenvolveram um novo sistema que substitui a intuição humana por
algoritmos. A “Máquina de Ciência de Dados” superou 615 de 906 equipes
humanas em três competições de ciências de dados recentes.
O que é Big-data? – Em
tecnologia da informação, Big Data (“megadados” em português) refere-se
a um grande armazenamento de dados e maior velocidade. Diz-se que o Big
Data se baseia em 5 “V” : velocidade, volume, variedade, veracidade e
valor.
Em duas das três competições, as previsões feitas pela máquina foram de 94 por cento e 96 por cento tão precisos quanto as apresentações vencedoras. Na terceira, o valor era de um pouco mais modesto, 87 por cento. Mas onde as equipes de seres humanos tipicamente trabalharam sobre os seus algoritmos de previsão por meses, a “Máquina de Ciência de Dados” levou de duas e 12 horas para produzir cada um dos resultados.
“Nós vemos a ‘Máquina de Ciência de Dados’ como um complemento natural para a inteligência humana”, diz Max Kanter, cuja tese de mestrado no MIT em ciência da computação é a base da Máquina de Ciência de Dados. “Há tantos dados lá fora, para serem analisados. E justamente agora eles estão apenas parados sem fazer nada. Então, talvez possamos chegar a uma solução que irá, pelo menos, analisá-los, ao menos movimentar-los.”
Entrelinhas
Kanter e seu conselheiro de tese, Kalyan Veeramachaneni, um pesquisador científico no Laboratório de Ciência da Computação e Inteligencia Artificial do MIT(CSAIL), descreveram a Máquina de Ciência de Dados em uma dissertação que Kanter irá apresentar na Conferência Internacional de Dados Científicos e Análise Avançada (IEEE).Veeramachaneni co-lidera a aprendizagem escalar para o grupo All no CSAIL, que aplica técnicas de aprendizado de máquina para problemas práticos na análise de big-data, como a determinação da capacidade de geração energética de fazendas eólicas ou prever que os estudantes estão em risco de largar os cursos on-line.
“O que observamos em nossa experiencia em resolver um número de problemas de dados científicos para a industria é aquele um muito crítico chamado engenharia de recurso”, disse Veeramachaneni. “A primeira coisa que você precisa fazer é identificar quais variáveis extrair ou compor da base de dados, e para isso, são necessárias muitas ideias.”
Na previsão de saída, por exemplo, dois indicadores mostraram-se cruciais em quanto tempo antes de um prazo um estudante começa a trabalhar em um conjunto de problemas e quanto tempo o estudante gasta no site em relação aos seus colegas de classe. A plataforma de aprendizado online do MIT, o MITX não registra nenhuma dessas estatísticas, mas coleta os dados a partir dos quais eles podem ser inferidos. (deduzir ou concluir algo)
Composição de destaque
Kanter e Veeramachaneni usam alguns truques para fabricar características dos candidatos para análises de dados. Uma é explorar as relações estruturais inerentes no projeto do banco de dados. Bancos de dados normalmente armazenam diferentes tipos de dados em tabelas diferentes, indicando as correlações entre eles usando identificadores numéricos. A Máquina de Ciência de Dados rastreia essas correlações, usando-as como uma sugestão para caracterizar a construção.Por exemplo, uma tabela pode listar os itens de varejo e os seus custos; outra pode listar os itens incluídos nas compras dos clientes individuais. A Máquina iria começar importando os custos da primeira tabela para a segunda. Em seguida, adotaria a própria sugestão de associação de vários itens diferentes na segunda tabela com o mesmo número de compra, em seguida executaria um conjunto de operações para gerar possíveis características: o custo total por compra, o custo médio por compra, o custo mínimo por compra, e assim por diante. Como os identificadores numéricos se proliferaram através das tabelas, as Máquina de Ciências de dados opera em camada acima umas das outras, encontrando médias mínimas, médias de somas, e assim por diante.
Ela também olha para os chamadas de dados categóricos, que parecem ser restritos a uma gama limitada de valores, tais como dias da semana ou nomes de marcas. Em seguida, ela gera mais características candidatas, dividindo os recursos existentes em todas as categorias.
Uma vez que é produzido um conjunto de características, ela reduz o seu número, identificando aqueles cujos valores parecem estar correlacionadas. Em seguida, ela começa a testar seu conjunto reduzido de recursos em dados de amostra, recombinando-os de diferentes maneiras para melhorar a precisão das previsões que originaram.
“A máquina de Ciência de dados é um desses projetos incríveis onde aplicamos pesquisas de ponta para resolver problemas práticos, abre uma maneira inteiramente nova de olhar para um problema”, diz Margo Seltzer, professor de ciência da computação na Universidade de Harvard, que não participou do trabalho. “Eu acho que o que eles fizeram vai se tornar o padrão rapidamente, muito rapidamente”
Cópia em PDF do projeto:
http://groups.csail.mit.edu/EVO-DesignOpt/groupWebSite/uploads/Site/DSAA_DSM_2015.pdf
Fonte: Larry Hardesty e MIT News via SciTechDaily
Esta é uma tradução livre feita por Suprimatec do artigo publicado na SciTechDaily, para vê-lo no idioma original clique no título a seguir: “Data Science Machine” Replaces Human Intuition with Algorithms
*fonte:
INÍCIO
Nenhum comentário:
Postar um comentário