Prêmio de Turing reconhece Andrew Barto e Richard Sutton por suas contribuições na evolução e criação do aprendizado por reforço
Na quarta-feira, 5 de março de 2025, os pesquisadores Andrew Barto e Richard Sutton ganharam o Prêmio Turing de 2024 por suas contribuições no desenvolvimento do aprendizado por reforço, um dos avanços essenciais para a evolução da inteligência artificial (IA). Concedido anualmente pela Association for Computing Machinery (ACM), a maior sociedade educacional e científica de computação do mundo, o Prêmio Turing reconhece indivíduos que impactaram a computação e a indústria de tecnologia da informação.
Criado em 1966, o Prêmio Turing, frequentemente chamado de Prêmio Nobel da Computação, entrega US$ 1 milhão aos vencedores. A homenagem leva o nome de Alan M. Turing, matemático britânico que articulou os fundamentos da computação.
Atualmente, Barto é professor emérito de Ciências da Informação e Computação na Universidade de Massachusetts, Amherst, nos Estados Unidos. Já Sutton é professor de Ciência da Computação na Universidade de Alberta, no Canadá, e cientista pesquisador startup de John Carmack, Keen Technologies.

Aprendizado por reforço
O aprendizado por reforço é um dos principais métodos de aprendizado de máquina ou machine learning, ramo da IA que capacita sistemas a aprenderem e aprimorarem seu desempenho com maior autonomia.
Nos últimos anos, a técnica ganhou destaque com o desenvolvimento de chatbots, como ChatGPT, Gemini e DeepSeek. O ChatGPT, por exemplo, aprimora suas respostas por meio do reforço a partir do feedback humano, também conhecido como reinforcement learning from human feedback, RLHF.
Mas o desenvolvimento do aprendizado por reforço começou décadas atrás e Barto e Sutton tiveram um papel crucial no processo.
A história do aprendizado por reforço
O aprendizado por recompensa já é familiar para o ensino de humanos e treinamento de animais há milhares de anos. Porém, foi em 1950 que Alan Turing propôs uma abordagem para o aprendizado de máquina com base em recompensas e punições. O pesquisador também desenvolveu um teste para avaliar se uma máquina consegue imitar um humano, aprendendo por tentativa e erro. Na mesma época, Turing conduziu alguns experimentos iniciais e Arthur Samuel desenvolveu um programa de jogo de damas que usava os princípios de aprendizado por reforço.
Algumas décadas depois, foi visto um progresso significativo na área. Em 1977, Andrew Barto começou a explorar uma nova teoria da psicologia de que os neurônios se comportavam como hedonistas, filosofia que defende a busca por prazer como finalidade da vida humana. A ideia era que o cérebro humano era movido por bilhões de células nervosas que tentam maximizar o prazer e minimizar a dor.
Um ano depois, ele foi acompanhado pelo seu doutorando Richard Sutton. Juntos, eles aplicaram o princípio hedonista à inteligência artificial e começaram a formular o aprendizado por reforço como uma estrutura geral de problemas. Com outros pesquisadores, Barto e Sutton continuaram a aprimorar o aprendizado por reforço e desenvolveram muitas das abordagens algorítmicas básicas usadas no método.
Em 2016 e 2017, a técnica ganhou destaque com o jogo Go, quando a AlphaGo, uma IA da empresa DeepMind, derrotou o campeão mundial de Go, Lee Sedol, e outros dos melhores jogadores humanos. Para o treinamento, a IA utilizou o aprendizado por reforço para jogar inúmeras partidas contra si mesma, melhorando suas estratégias por tentativa e erro.
Atualmente, além de jogos, o aprendizado por reforço apresenta amplas contribuições no desenvolvimento de modelos de IAs, treinamento de robôs e otimização da cadeia de suprimentos global.
O futuro do aprendizado por reforço
O prêmio de Barto e Sutton pelo pioneirismo no desenvolvimento de técnicas do aprendizado por reforço mostra como o método foi e ainda possui relevância no desenvolvimento de novas tecnologias.
“O aprendizado por reforço é uma ferramenta importante para o desenvolvimento da inteligência artificial também no ramo da indústria. Quando olhamos para as oportunidades de robotização, esse método permite que tenhamos melhor desempenho mesmo em cenários de grande incerteza. As contribuições de Barto e Sutton foram cruciais para essa disciplina e o prêmio é muito merecido”, menciona Luiz Bernardes, CEO da Futago.
Além das suas aplicações na robótica e no desenvolvimento de jogos, o método é muito usado no treinamento de sistemas autônomos cada vez mais presentes em veículos e máquinas, além de ser utilizado no controle de congestionamento de rede, na realização de publicidade na internet e em fábricas, no contexto da Indústria 4.0.
A Futago é uma das empresas especialistas em IA e outras tecnologias e está aqui para ajudar na otimização da sua planta industrial. O aprendizado por reforço é uma das nossas técnicas utilizadas para treinar modelos de IAs para a sua indústria.
Nosso time de especialistas em construir gêmeos digitais com IA oferece soluções personalizadas para elevar o seu negócio ao próximo nível e pode auxiliar na identificação de como essas tecnologias podem ser implantadas na sua empresa e quais as áreas-chave para essa evolução.
Entre em contato conosco e descubra como gêmeos digitais e IA podem fazer parte da sua estratégia empresarial!