O mundo da tecnologia sofreu uma grande reviravolta nesta segunda-feira 27, que não só desbancou os Estados Unidos da liderança em Inteligência Artificial, como fez as ações das grandes companhias americanas despencarem. Em questão de horas, cerca de US$ 1 trilhão em valor de mercado foi apagado das empresas de tecnologia, marcando o início de uma nova era na corrida tecnológica global. A “culpada” atende pelo nome de DeepSeek, um modelo de inteligência artificial desenvolvido por uma startup chinesa, que rapidamente se tornou o aplicativo mais baixado na App Store dos EUA, superando o ChatGPT.
Acompanhe esse Hacks e entenda com detalhes o que é o DeepSeek, o que torna essa IA única em relação a outras, comparativo com ChatGPT com impressões do nosso especialista em IA e qual seu impacto no mercado financeiro e na relação EUA e China.
1.O que é a DeepSeek e quem está por trás
A DeepSeek é uma startup chinesa que está chamando a atenção de todo o ecossistema de inteligência artificial (IA) desde sua fundação em 2023. Ela foi criada por Liang Wenfeng, um ex-gestor do fundo de hedge High-Flyer, com o objetivo de democratizar o acesso à inteligência artificial de alto desempenho, oferecendo soluções significativamente mais acessíveis do que seus concorrentes.
Liang Wenfeng, que tem uma vasta experiência no setor financeiro, trouxe para a DeepSeek uma abordagem inovadora que combina seu conhecimento de mercados e gestão de investimentos com o desenvolvimento de tecnologias disruptivas. Em vez de seguir a prática comum de desenvolver modelos de IA voltados para aplicações comerciais imediatas, a DeepSeek concentrou-se desde o início em resolver problemas complexos de maneira mais eficiente, com um foco em inovação e em criar tecnologias que pudessem ser aplicadas de diversas formas.
Do ponto de vista de produtos, a DeepSeek oferece dois modelos de IA de destaque:
- DeepSeek-R1: Um modelo de linguagem avançado, projetado para lidar com tarefas complexas como programação, raciocínio lógico e resolução de problemas matemáticos de alto nível.
- Janus-Pro: Um gerador de imagens que, em termos de desempenho técnico, já superou modelos concorrentes como o DALL-E 3.
2. Como a DeepSeek funciona?
O sucesso da DeepSeek está intimamente ligado à sua arquitetura e escolhas estratégicas de desenvolvimento. A empresa implementou uma série de inovações que permitem uma eficiência sem igual no uso de recursos computacionais, o que reflete diretamente na qualidade e custo-benefício.
- Arquitetura Mixture-of-Experts (MoE): O modelo DeepSeek-R1 é baseado na arquitetura MoE, que utiliza 671 bilhões de parâmetros, mas ativa apenas 37 bilhões por tarefa (cerca de 6% do total). Isso significa que, em vez de sobrecarregar o sistema com a ativação de todos os parâmetros a cada operação, o modelo ativa apenas o necessário, otimizando o uso dos recursos computacionais e garantindo maior eficiência energética.
- Hardware Eficiente: Enquanto seus concorrentes utilizam chips avançados e caros, como o Nvidia H100, -proíbido de ser vendido para a China – a DeepSeek optou por utilizar o Nvidia H800, que são menos potentes, mas mais eficientes em termos de consumo de energia. Essa escolha foi em parte motivada pelas restrições de exportação dos EUA, mas acabou se provando uma estratégia vencedora, permitindo que a empresa alcançasse um desempenho competitivo com custos reduzidos.
- Código Aberto: A DeepSeek adota uma abordagem open-source. Isso significa que outros desenvolvedores podem adaptar o código e até comercializar suas próprias versões personalizadas, sem as restrições comuns de licenciamento de outros grandes players do mercado.
- Aprendizado por Reforço: Durante a fase de pós-treinamento, o modelo se beneficiou de técnicas avançadas de aprendizado por reforço, que aprimoraram sua capacidade de resolver problemas complexos, tomando decisões com base em recompensas e penalidades.
- Pensamento em “Voz Alta”: O DeepSeek R1 possui a capacidade de “pensar em voz alta”, demonstrando seu raciocínio passo a passo antes de fornecer uma resposta final. Esse processo, conhecido como “chain of thought”, permite que o modelo decomponha problemas complexos, realize verificações intermediárias e corrija erros durante o raciocínio.
3. O que torna a DeepSeek diferenciada?
A DeepSeek se destaca no mercado por diversas razões, sendo a mais importante sua eficiência incomparável em vários aspectos.
- Custo Reduzido: Com um orçamento de apenas US$ 5,6 milhões, a empresa conseguiu desenvolver um modelo de IA altamente avançado que desafia gigantes como a OpenAI, que gastaram bilhões em seus modelos. A DeepSeek precisou apenas de cerca de 2.000 chips especializados da Nvidia para treinar seu modelo de IA, em comparação com os 16.000 ou mais necessários para treinar modelos líderes do mercado.
- Eficiência Energética: A estratégia de ativação seletiva de parâmetros e o uso de hardware mais econômico garantem que o modelo DeepSeek-R1 tenha um consumo de energia significativamente reduzido, o que não apenas ajuda a reduzir os custos operacionais, mas também torna o modelo mais sustentável.
- Desempenho Superior: No MATH-500 e AIME 2024, a DeepSeek-R1 superou outros modelos de IA, atingindo taxas de acerto superiores a 78% em problemas matemáticos avançados, algo que é um marco significativo para o campo da IA.
- Acessibilidade: O custo peracional da API do DeepSeek-R1 é extremamente baixo, custando apenas US$ 0,14 por milhão de tokens processados, um valor muito mais acessível quando comparado aos US$ 2,50 cobrados pelo GPT-4. Isso torna a DeepSeek uma excelente escolha para startups e empresas menores, que podem se beneficiar de tecnologia de ponta sem a necessidade de investir grandes quantias inicialmente.
4. DeepSeek x ChatGPT
Primeiras Impressões do teste que realizamos em nosso lab de inovação e Tecnologia
- O DeepSeek é otimizado para tarefas específicas, com foco em eficiência e precisão em contextos práticos. Seu modelo é ajustado para equilibrar desempenho e consumo de recursos, oferecendo resultados mais ágeis e contextualizados, e o melhor: é gratuito.
- Já o ChatGPT utiliza uma arquitetura massiva, com bilhões de parâmetros, projetada para a generalização em uma ampla gama de tarefas. Acredito que, por esse motivo, suas respostas são mais lentas em comparação ao DS.
>
Repostas: O DS é focado em fornecer respostas rápidas e precisas para perguntas diretas, com menor propensão a alucinações, algo que é frequentemente observado ao usar o ChatGPT ou outros modelos.
>Por outro lado, o ChatGPT ainda é uma das melhores opções para gerar textos longos, criativos e detalhados, mas, além de ser mais lento, tende a ser menos direto em respostas curtas e objetivas (versão gratuita).
>
Funções: O DeepSeek possui funções que a versão gratuita do ChatGPT não oferece, por exemplo: Dá pra fazer upload de arquivos (como PDFs, documentos de texto ou planilhas) diretamente na interface, facilitando tarefas como extração de dados, resumos ou análises.
>
Pulo do gato: Função DeepThink (R1): aqui vem “o pulo do gato”, com essa opção ativada na interface do chat, o DeepSeek analisa a pergunta do usuário, inicia uma “reflexão” para traçar um caminho de resposta, volta atrás, revisita pontos relevantes, muda de direção, recupera informações importantes e só então conclui a resposta.
Qual escolher:
A escolha entre os dois depende das necessidades do projeto: - DeepSeek: Pode ser a melhor escolha se a prioridade for eficiência e objetividade
- ChatGPT: Pode ser a melhor escolha, se a prioridade for criatividade e generalização
*Ambos são atualizados até outubro de 2023, garantindo acesso a informações recentes.
5. Impacto global: DeepSeek abalou o mercado financeiro e expos vulnerabilidade das big techs
O anúncio da DeepSeek na segunda-feira, dia 27, provocou quedas históricas no mercado financeiro global. O suposto custo inferior e mais acessível da IA fez investidores questionarem a sustentabilidade dos gastos no setor, impactando diretamente as big techs. A Nvidia, maior fabricante de chips para IA, sofreu a maior perda diária da história americana, com uma queda de 17% e US$ 589 bilhões em valor de mercado. Alphabet (Google), Meta e Microsoft também registraram baixas de 7%, 10% e até 5%, respectivamente. O efeito cascata atingiu outras gigantes do setor, como Broadcom (-18%), Oracle (-14%), AMD (-7%) e Super Micro (-13%), levando o Nasdaq a fechar com queda de 3,1%.
A ascensão da DeepSeek desafia o domínio das big techs na IA e expõe a vulnerabilidade de empresas que lideravam o setor. O impacto vai além dos concorrentes diretos, atingindo fabricantes de chips, data centers e desenvolvedores de soluções. A repercussão global evidencia como um único avanço pode redefinir um mercado bilionário, forçando as big techs a uma resposta rápida e estratégica, além de exigir uma reavaliação das teses de investimento em inteligência artificial.
6. EUA X China: Impacto Geopolítico
Este episódio intensificou a disputa entre Estados Unidos e China na corrida pela inteligência artificial, sendo classificado por Donald Trump como um “momento Sputnik” para a tecnologia americana. O avanço da startup chinesa expôs fragilidades nas sanções americanas contra o setor de chips, demonstrando que a China pode inovar sem depender das tecnologias ocidentais mais avançadas.
Em resposta, Washington passou a questionar a eficácia das restrições de exportação como ferramenta de contenção tecnológica. Enquanto isso, líderes do setor, como Sam Altman, da OpenAI, destacaram que a concorrência pode impulsionar novas inovações, com a OpenAI já planejando novos lançamentos. Empresas como a Meta montaram “salas de crise” para avaliar os impactos do DeepSeek-R1 e definir estratégias para enfrentar a nova concorrência.
Esse avanço surpreendeu a indústria americana, forçando uma reavaliação das estratégias para manter a liderança no setor. Ao mesmo tempo, o sucesso inicial da ferramenta reforçou a percepção de que a China não apenas compete, mas também inova no mais alto nível tecnológico. Essa nova realidade intensifica o risco de uma “guerra fria” tecnológica, com ambos os países reconhecendo a inteligência artificial como um pilar estratégico para segurança nacional e competitividade econômica. A DeepSeek tornou-se um símbolo dessa disputa global, representando tanto o progresso chinês quanto o desafio imposto aos Estados Unidos na manutenção de sua hegemonia tecnológica.
7. O que esperar do DeepSeek R1?
Com resultados impressionantes e soluções criativas, a DeepSeek R1 promete ser uma alternativa poderosa aos modelos atuais de IA. Ele combina precisão, aprendizado contínuo e acessibilidade, se destacando em um mercado dominado por empresas como OpenAI e Anthropic.
Além de ser uma demonstração de tecnologia de ponta, o projeto também busca democratizar o acesso à IA. Ao permitir que modelos menores sejam tão eficazes quanto os grandes, ele pode transformar áreas como ensino, pesquisa e automação, alcançando um público maior.
Se o modelo continuar evoluindo, é provável que ele se consolide como uma das IAs mais importantes da atualidade, trazendo benefícios tanto para grandes empresas quanto para usuários comuns.