Mais de 100 modelos maliciosos de IA/ML encontrados na plataforma Hugging Face

Cerca de 100 modelos maliciosos de inteligência artificial (IA)/aprendizado de máquina (ML) foram descobertos na plataforma Hugging Face.

Isso inclui casos em que o carregamento de um arquivo pickle leva à execução de código, disse a empresa de segurança da cadeia de suprimentos de software JFrog.

“A carga útil do modelo concede ao invasor um escudo na máquina comprometida, permitindo-lhes obter controle total sobre as máquinas das vítimas através do que é comumente chamado de ‘backdoor’”, disse o pesquisador sênior de segurança David Cohen.

“Essa infiltração silenciosa poderia potencialmente conceder acesso a sistemas internos críticos e abrir caminho para violações de dados em grande escala ou mesmo espionagem corporativa, impactando não apenas usuários individuais, mas potencialmente organizações inteiras em todo o mundo, ao mesmo tempo em que deixa as vítimas totalmente inconscientes de seu estado comprometido. .”

Especificamente, o modelo não autorizado inicia uma conexão shell reversa para 210.117.212[.]93, um endereço IP que pertence à Rede Aberta do Ambiente de Pesquisa da Coreia (KREONET). Outros repositórios com a mesma carga útil foram observados conectando-se a outros endereços IP.

Num caso, os autores do modelo instaram os utilizadores a não o descarregarem, levantando a possibilidade de a publicação ser obra de investigadores ou profissionais de IA.

“No entanto, um princípio fundamental na pesquisa de segurança é abster-se de publicar explorações reais ou códigos maliciosos”, disse JFrog. “Este princípio foi violado quando o código malicioso tentou se conectar a um endereço IP genuíno”.

As descobertas sublinham mais uma vez a ameaça que se esconde nos repositórios de código aberto, que podem ser envenenados por atividades nefastas.

Dos riscos da cadeia de suprimentos aos worms de clique zero#

Eles também surgem no momento em que os pesquisadores desenvolveram maneiras eficientes de gerar prompts que podem ser usados para obter respostas prejudiciais de modelos de linguagem grande (LLMs) usando uma técnica chamada ataque adversário baseado em pesquisa de feixe (BEAST).

Em um desenvolvimento relacionado, pesquisadores de segurança desenvolveram o que é conhecido como worm generativo de IA chamado Morris II, que é capaz de roubar dados e espalhar malware por vários sistemas.

Morris II, uma variação de um dos worms de computador mais antigos, aproveita prompts auto-replicantes adversários codificados em entradas como imagens e texto que, quando processados por modelos GenAI, podem acioná-los para “replicar a entrada como saída (replicação) e engajar em atividades maliciosas (carga útil)”, disseram os pesquisadores de segurança Stav Cohen, Ron Bitton e Ben Nassi.

Ainda mais preocupante, os modelos podem ser transformados em armas para fornecer informações maliciosas a novas aplicações, explorando a conectividade dentro do ecossistema generativo de IA.

A técnica de ataque, chamada ComPromptMized, compartilha semelhanças com abordagens tradicionais, como buffer overflows e injeções de SQL, devido ao fato de incorporar o código dentro de uma consulta e dados em regiões conhecidas por conter código executável.

O ComPromptMized afeta aplicativos cujo fluxo de execução depende da saída de um serviço generativo de IA, bem como aqueles que usam geração aumentada de recuperação (RAG), que combina modelos de geração de texto com um componente de recuperação de informações para enriquecer as respostas de consulta.

O estudo não é o primeiro, nem será o último, a explorar a ideia da injeção imediata como uma forma de atacar os LLMs e induzi-los a realizar ações não intencionais.

Anteriormente, acadêmicos demonstraram ataques que usam imagens e gravações de áudio para injetar “perturbações adversárias” invisíveis em LLMs multimodais que fazem com que o modelo produza textos ou instruções escolhidas pelo invasor.

“O invasor pode atrair a vítima para uma página da Web com uma imagem interessante ou enviar um e-mail com um clipe de áudio”, disseram Nassi, junto com Eugene Bagdasaryan, Tsung-Yin Hsieh e Vitaly Shmatikov, em artigo publicado no final do ano passado.

“Quando a vítima insere diretamente a imagem ou clipe em um LLM isolado e faz perguntas sobre isso, o modelo será orientado por prompts injetados pelo invasor.”

No início do ano passado, um grupo de pesquisadores do CISPA Helmholtz Center for Information Security da Saarland University e Sequire Technology da Alemanha também descobriu como um invasor poderia explorar modelos LLM injetando estrategicamente prompts ocultos nos dados (ou seja, injeção indireta de prompt) que o modelo provavelmente usaria. recuperar ao responder à entrada do utilizador.

Fonte: https://thehackernews.com/2024/03/over-100-malicious-aiml-models-found-on.html

Comentários