Startup posterga o R2 ao não conseguir treiná-lo nos Ascend; usará Nvidia para treinamento e Huawei na inferência.
A chinesa DeepSeek adiou o lançamento de seu novo modelo de IA após não conseguir treiná-lo nos chips Ascend da Huawei, expondo limites da estratégia de Pequim de substituir tecnologia dos Estados Unidos e a contínua dependência da Nvidia, segundo matéria do Financial Times.
A startup foi incentivada por autoridades a adotar o Ascend após lançar o R1 em janeiro, disseram três pessoas a par do assunto. Contudo, problemas técnicos persistentes no treinamento do R2 com Ascend levaram a empresa a usar chips da Nvidia para treinamento e Huawei para inferência, segundo as fontes do Financial Times..
Notícias e Cobertura do Mercado Em Tempo Real Acesse: https://t.me/activtradespt
Os entraves foram o principal motivo do atraso do lançamento em maio, fazendo o projeto perder terreno para rivais, disse uma pessoa ao Financial Times. Treinamento é a etapa em que o modelo aprende com um grande conjunto de dados; inferência é quando o modelo treinado faz previsões ou gera respostas.
- As dificuldades ilustram que chips chineses ainda ficam atrás dos americanos em tarefas críticas, desafiando a ambição de autossuficiência tecnológica da China.
- O Financial Times informou que Pequim passou a exigir que empresas justifiquem pedidos do H20 da Nvidia para estimular alternativas da Huawei e Cambricon.
- Fontes do setor ao Financial Times citam problemas de estabilidade, conectividade entre chips mais lenta e software inferior em relação aos produtos da Nvidia.
A Huawei enviou engenheiros ao escritório da DeepSeek para apoiar o R2, disseram duas pessoas. Mesmo com a equipe no local, o treinamento bem-sucedido no Ascend não ocorreu, segundo elas. A DeepSeek segue trabalhando com a Huawei para tornar o modelo compatível com o Ascend na inferência, afirmaram.
- Internamente, o fundador Liang Wenfeng disse estar insatisfeito com o progresso do R2 e busca dedicar mais tempo a um modelo avançado que sustente a liderança da empresa em IA, segundo relatos ao Financial Times.
- O cronograma também foi afetado pela demora na rotulagem de dados do modelo atualizado, disse outra fonte.
- Reportagens da mídia chinesa sugerem lançamento nas próximas semanas.
“Modelos são commodities que podem ser facilmente trocadas”, disse Ritwik Gupta, pesquisador de IA da Universidade da Califórnia, Berkeley. “Muitos desenvolvedores estão usando o Qwen3 do Alibaba, que é poderoso e flexível.”
- Gupta afirmou que o Qwen3 incorporou conceitos do DeepSeek, como o algoritmo de treinamento voltado a raciocínio, tornando-os mais eficientes.
- Segundo ele, a Huawei enfrenta “dificuldades de crescimento” no uso do Ascend para treinamento, mas tende a se adaptar.
- “Só porque não vemos modelos líderes treinados para a Huawei hoje não significa que isso não acontecerá no futuro. É uma questão de tempo.”
No pano de fundo geopolítico, a Nvidia — no centro da disputa entre Pequim e Washington — concordou recentemente em dar ao governo dos Estados Unidos uma parte das receitas na China para retomar as vendas do H20 ao país.
- “Os desenvolvedores desempenharão um papel crucial na construção do ecossistema de IA vencedor. Entregar mercados e desenvolvedores inteiros só prejudicaria a segurança econômica e nacional dos Estados Unidos.”, disse a Nvidia sobre empresas chinesas que utilizam seus chips.
DeepSeek e Huawei não responderam a pedidos de comentário.
Notícias e Cobertura do Mercado Em Tempo Real Acesse: https://t.me/activtradespt