BSides SP 2025 - Ciberinteligência com LLMs

Name: BSides SP 2025 - Ciberinteligência com LLMs
Uploaded: 2025-06-23
Duration: 43 min 28 s
Description: Título: Ciberinteligência com LLMs Resumo: Nesta palestra, exploraremos como os Modelos de Linguagem de Grande Escala (LLMs), como o ChatGPT e outras arquiteturas avançadas, estão transformando o campo da ciberinteligência. Discutiremos aplicações práticas no monitoramento de ameaças, análise de dad

BSides São Paulo43:28131 viewsPublished 2025-06Watch on YouTube ↗

About this talk

Título: Ciberinteligência com LLMs Resumo: Nesta palestra, exploraremos como os Modelos de Linguagem de Grande Escala (LLMs), como o ChatGPT e outras arquiteturas avançadas, estão transformando o campo da ciberinteligência. Discutiremos aplicações práticas no monitoramento de ameaças, análise de dados em fontes abertas (OSINT), automação de relatórios, triagem de alertas e geração de hipóteses investigativas. A palestra abordará também os riscos e limitações dos LLMs no contexto de segurança cibernética, além de apresentar casos reais e demonstrações práticas de como integrar essas ferramentas em fluxos de trabalho de analistas e investigadores. Palestrante: Pollyne Zunino e Francisco J. Rodríguez Montero

Show transcript [es]

son. Boa tarde, pessoal. Agora vou chamar Paulino, Francisco para apresentar cyber inteligência con LLMs. Boa tarde, pessoal. Bem-vindos ao a palestra de cyber inteligência con LLMs. Para quem não me conce subcoordenadora do SAT junto com Francisco. Especialista em investigación de crimes cibernéticos e fraudes eletricas atuei em algumas empresas como Banco Itaú, Rede GIF. Agora estou na pura. Passei por algumas por algumas conquistas, contribui aí ao longo da carreira. trabalho bem cona parte de investigación, deinte, de contrainteligcia.

Buenas tardes a todos. Eh, la palestra de ahora va a ser un resumo de nuestro workshop de ontem de 3 horas. Ven, van a ser 40 minutos resumiendo, es un reprise de la palestra de del workshop de ontem, ¿no? ¿Quién participó? ¿Alguien participó en el en el workshop? ¿Alguien participó? Pues que se va. Eh, bueno, mi nombre es Francisco Rodríguez, soy coordinador del equipo SWAT Team de Apura, además soy formador en un conjunto W en formaciones sobre todo orientadas a tema de Darnets. ¿Quién conoce las Darnets? ¿Alguien conoce las Darnet? Deep, Dark Web, Rector, Ceronet, IFANET y 2P. Hoy falaremos sobre eso. Eh, en España he pertenecido al Instituto Nacional de Ciberseguridad de España, el INCIBE, dentro del

departamento de luta contra el ciberdelito y el cibercrimen. Además, soy formador civil del de la Escuela Militar de Ciberoperaciones de el Ministerio de Defensa de España. Además de trabajar en Brasil y en España, también eh formo parte de eh soy consultor externo de una infraestructura crítica, en este caso en Chile, además de dar otras formaciones, sobre todo siempre orientado a entornos policiales y entornos militares.

Tabar con cyber inteligência en Darknet. Hoje tudo que comea começa na Darknet. Toda parte de planejamento de crimes, toda parte de perfil de ameaças que est iniciando, eles comeam lá e depois a gente v o sintoma disso na surface. Então hoje a gente tem um ambiente fora do radar onde ocorrem esses planejamentos dessas desses crimes, desses perfis emergentes de ameaça, onde toda fonte de inteligar

LLM locais e agentes autônomos? Quando a gente fala de executar as LLMs locais, a gente tá falando de privacidade, onde a gente consegue manter todos os dados que a gente trabalhando dentro do nosso perímetro ali local. A gente não precisa conectar esses modelos na internet para fazer o processamento dos dados. Então a gente tá isolando aquilo dentro de um perímetro. Assim, a gente não expõe os dados paraa internet, evitando ali o vazamento da nossa operação, dos nossos dados sigilosos, principalmente quando a gente trabalha com dados sensíveis, principalmente em casos, por exemplo, de pedofilia, casos de tráfico de pessoas e etc. Pode expor isso a Ia conectada na internet. Então, quando trabalha com esse tipo de investiga precisa conectar

localina paraer o processamento dos dados.

El primer punto es bien, ¿qué es la ciberinteligencia? ¿Alguien trabaja con ciberinteligencia en el alo? ¿Alguien traballa con ciberinteligencia? Primero es definir qué es la ciberinteligencia. Primeramente hablamos de el proceso de colectar, recolectar información, analizar la información y transformar esa información obtenida del ciberespacio en conocimiento accionable, en conocimiento útil ¿okay? con el objetivo de identificar amenazas emergentes, anticiparnos a los ataques, comprender comportamientos maliciosos, normalmente de grupos criminales, de apets, por ejemplo, y apoyar en la tomada de decisiones estratégicas. operacionales o tácticas. no se limita solo a respuesta de incidentes, sino que su foco está en entender todo ese ambiente digital, ese mundo digital que es un campo que es dinámico y está expuesto a riesgos, a conflictos, pero

también a oportunidades. La ciberinteligencia en si sigue un ciclo. Bien. Y el ciclo sería el siguiente. Primero, la parte de la dirección, el direccionamiento, es definir cuál es el problema y los objetivos para la recolección de inteligencia. Bien, ¿qué es lo que queremos buscar? Tenemos la parte de colecta, de recolección, bien, buscar los datos de varias fontes, fontes orientadas a la investigación que nos estamos haciendo. ¿Okay? Dependiendo de la investigación debemos seleccionar una fonte u otra, siempre verificando las fontes. ¿Ven? Tenemos la parte de procesamiento, organizar y filtrar los dados que hemos colectado para después hacer un análisis, o sea, una interpretación de esos datos para generar inteligencia, para generar información, para generar insights. Okay. Después está la parte de

diseminación, la entrega del relatorio. No, no nos gusta a ninguno hacer relatorio, ¿cierto? A mí no. Entregar los productos de inteligencia a la parte que nos ha solicitado ese ese análisis, ¿no? Esa esa petición de inteligencia. Y por último, la parte de revisión retroalimentación, que es validar eh o ajustar el proceso de que ya hemos realizado antes. ¿Okay? Estas serían las fases del ciclo de ciberinteligencia. Es lo mismo ciberseguranza que inteligencia cibernética. Now, no son concurrentes, son complementares. Bien, aunque actúen con enfoques diferentes, la ciberseguranza y la ciberinteligencia no son concurrentes, son complementares y juntas forman una defensa más inteligente, ágil y estratégica contra toda variedad. de amenazas digitales, fishing, ransonware, basamiento de información en

general, entre otras amenazas actuales. La ciberseguranza actúa como una línea de frente, ¿no? Protege los sistemas, las redes de datos, aplica controles técnicos, responde a diferentes tipos de incidentes. Sin embargo, la ciberinteligencia proporciona contexto y es muy importante siempre hacer referencia al contexto para con la finalidad de anticipar movimientos, identificar patrones de comportamiento, analizar fuentes no convencionales, o sea, fontes como las Darnets, que ahora vamos a falar. y transformar estas señales dispersas en conocimiento accionable, convertirlo en inteligencia.

Si falamos de Darnets, hay que falar primero de esto. Surface, Deep y Dark. Conocen la diferencia entre las tres conocen la diferencia entre Surface, Deep y Dark Web. Vamos a falar sobre ello. Aquí tenemos la parte de Surface, la llamada internet convencional, las que usamos habitualmente en nuestra vida cotidiana. Bien, es el contenido web, en este caso indexado por buscadores. La Surface Web es el conteo web indexado por buscadores, no solo por Google, Yahoo, Bining, Starpay, sino por multitud de buscadores que existen. Bien, eso sería básicamente la surface web, el conteúdo accesible mediante una dirección IP o mediante un dominio. Okay. Segundo, la dark web. Normalmente cuando se fala de dark web se relaciona de forma directa con

cibercrimen y eso es un error. Pero siempre que se falen los medios, dark web, deep web, sobre todo deep web, directamente se relaciona con cibercrimen. Y en la surface web no hay cibercrimen. En la surface web no hay cibercrimen. Y aquí no hay cibercrimen. ¿Tenéis Telegram? ¿Ustedes tienen Telegram en el móvil? ¿Tienen WhatsApp? ¿Por qué la gente me mira mal cuando yo falo que uso Thor Browser? Y si vos usan Telegram, yo también podría mirar a voces mal, ¿no? Cibercrimen al alcance de la mano, ¿no? En Telegram se repiten muchas de las actividades criminales que ocurren en las Darnets y todos usan Telegram, ¿no? O WhatsApp, ¿cierto? No podemos criminalizar la tecnología por el mal uso que se le pueda dar esa

tecnología, porque cualquier tecnología se puede usar para hacer el mal. La parte de dark web es el conteo web no indexado por buscadores. Bien, contenido web no indexado por buscadores. Todo aquel contenido que está, por ejemplo, en nuestros buzones de correo en el cloud, bien, por ejemplo, el conteo de sus buzones de correo en Gmail, por ejemplo, ¿no? Ese conteúdo no está indexado por buscadores, ¿no? No debería, no debería, ¿cierto? O eh información de intranet corporativas. Esa información se considera deep web porque no está indexada aquí. Pero a veces acontece que información de intranet corporativas se indexan por buscadores y aparecen aquí. Esa es una de las partes las que yo trabajo diariamente en encontrar

información que debería estar aquí, pero por alguna razón termina aquí. ¿Ven? También tenemos dominios alternativos, ¿ven? Como son los dominios de Open Nick. Toda esa parte se considera esa llamada deep web. Después tenemos la parte de dark web. y la parte de las Darnets, bien, que es esa parte más oscura, normalmente relacionada con varios tipos de ciberdelitos. La DAR web es el conteo web dentro de las Darnets, Ceronet, Ifanet, Rector, la más conocida EI2P. Bien, la dark web es el conteo web dentro de las Darnet. Bien, ¿qué es lo que acontece? que podemos pensar que en las Darnet solo hay conteo web y eso es falso. En redes como Thor existen otros protocolos diferente al

protocolo web, SSH, FTP, IRC, SMTP y cualquier protocolo basado en TCP. Si hacemos una investigación en TOR y solamente tenemos en cuenta el protocolo web, solos estamos viendo una parte muy pequeña. Hay que extenderse a otro tipo de protocolos. ¿Okay? Este conteo normalmente no está indexado aquí. Bien. Para accesar a esta darnetamente es preciso usar un cliente de cada darknet. ¿Ven? Para accesar a la reor browser ¿cierto? Pero no es la única manera de accesar a la rector, ¿ven? Es la forma más convencional. Má, si queremos hacer una automatización precisamos usar otras técnicas como hicimos hicimos ayer en el en el workshop de 3 horas. Bien, para instalar Thor en Linux es ejecutar un comando.

No hay más, no hay más misterio. Es ejecutar un comando. Apgetor. Chao. No hay más drama. Ven,

como he dicho antes, las Darnet, aunque no tienen una definición universal, son redes que se sobreponen a la internet pública y normalmente requieren de un software específico. Aquí están las más conocidas y aquí están otras que no tienen por qué considerarse darnets, pero ahí están como Hop, n lokinet o geneunets. Y de aquí pasamos directamente a la parte de dark in. Todos conocen el concepto de in os in open short, intelligent, inteligencia en fontes abertas ¿cierto? tenemos este término dark int. Cuando hablamos de dark in, hablamos de la colecta y el análisis de informaciones obtenidas a partir de fontes fuera de la internet convencional. También podría ser Instagram o WhatsApp, pero aquí nos vamos a centrar más en las

Darnet. Bien. Eh, aquí se concentra en áreas que son que no son indexadas por los motores de búsqueda, como son la DIP y la Dark Web, forum privados, redes de mensajes criptografadas y otras plataformas de acceso restricto. Se podría considerar como una rama de OSIN más con el foco en fonte menos accesibles. Las darnets se pueden considerar una fuente abierta más now directamente accesible. Para accesar esa información tiene que hacer algún tipo de configuración o usar algún tipo de software. ¿Okay? Hay que tener en cuenta que el término darkin no es ampliamente reconocida por la la comunidad de inteligencia, pero surgió en determinados círculos para referirse a la inteligencia obtenida en la dark web o en fuentes normalmente

relacionadas con ciberdelitos. Como hemos dicho antes, puede ser categorizada como una subcategoría dos, pero eh enfocándose en la colecta de información en espacios oscuros. Como decíamos, no es un término oficial de clasificación de inteligencias como sí lo son o sign. Sin embargo, su uso ha ganado popularidad en los últimos años en algunas comunidades de ciberseguranza.

¿Qué podemos obtener de estas fontes? Podemos obtener todos estos puntos. Temas de basamiento de datos conocen el ransonware, ¿cierto? ¿Dónde publican los grupos de ransonware la información que extraen? En dominios punion. dominios dentro, en este caso, de la red TOR para prevención de ciberataques mediante monitoramiento proactivo, incluso identificación de credenciales. Es muy normal que vendan credenciales para accesar a diferentes tipos de dispositivos de las entidades. protección contra espionaje, investigaciones criminales, eh validación de riesgos reputacionales, análisis de amenazas y aquí están fórum privados, por ejemplo, o grupos fechados. No vamos a poder accesar directamente a toda la información. Existen determinados grupos que para accesar precisamos entregar conteudo, por ejemplo, forums de pedofilia, entre otros. ¿Ven? Prevención de fraudes, prevención de

tráfico ilegal y también revigilancia de grupos extremistas. Aunque eh diría que en Telegram hay más grupos extremistas que dentro de las propias Darnets. Y aquí un poco igual que antes, ¿no? El ciclo de inteligencia aplicado a Darkin. Tenemos la obtención de datos de las fuentes oscuras, o sea, la colecta, la refinación, o sea, el procesamiento, el análisis, la diseminación y el fecb muy similar al que hemos visto antes con ciberinteligencia. Bien, al final lo ideal es usar tanto las fuentes abiertas convencionales como aquella información que podamos obtener dentro de las propias Tarnets. Y aquí un poco comparando el propio término de ciberinteligencia con el propio término de darking, la ciberinteligencia tiene un abordaje general de la

inteligencia en ciberseguranza. Sin embargo, el darking sería una subdisciplina enfocada a las redes oscuras. En la ciberinteligencia analizamos amenaza de múltiples fuentes y vectores. Sin embargo, en la darking nos enfocamos en ambientes anónimos y normalmente clandestinos. Aquí puede incluir inteligencia técnica, táctica y estratégica. Y aquí va más ligada a inteligencia táctica y estratégica. Y por último punto en la ciberinteligencia tenemos aquí usando fit sem o sin análisis de malware. Sin embargo, con darking nos referimos más bien al tema de uso de crowler, huming, correlación de basamientos, entre otros. Poline, ¿y son lls? Llms, los large models, son grandes modelos de textos inteliges de texto para entender e gerar linguagem humana. Quando a gente fala de como eles

funcionam, quando a gente fala de multimodal e unimodal, a gente tá falando de entrada de textos, comandos ou perguntas que processo com contexto padrões e saídas com respostas com contexto. Mais para frente a gente vai mostrar um pouco sobre unimodal e multimodal pra gente ver a questão da entrada desses dados. E isso pode ser aplicado na cyberinteligência através de resumos de textos extraídos das Darknets. A gente pode traduzir posts em fórums, a gente pode ter parte de dumps onde vão ter várias linguagens e a LLM pode ajudar a processar esses dumps. A gente pode fazer classificação desses conteúdos para entender o contexto em que esses conteúdos estão inseridos e onde eles foram coletados. A gente pode

utilizar na extração de dados paraer esses processamentos. E quando a gente fala de open source versus proprietário, qual escolher, aqui a gente tem uma grande questão que é a privacidade. Quando a gente fala de privacidade nos LLMs, a gente tá falando de no open source de execução local sem envio desses dados para um servidor externo, onde a gente mantém o controle sobre os nossos dados e a gente consegue manter isso privado na nossa máquina de forma offline. Quando a gente fala de modelos proprietários, a gente está refém de enviar esses dados de investigação para um servidor externo e depender de atualizações e etc. de um fornecedor externo. Quando a gente tem isso dentro do do nosso ambiente open source, a

gente falando aí de um custo baixo, mas ao mesmo tempo a gente tem un custo alto com hardware para executar esses LLMs, mas ao mesmo tempo a gente garantindo a privacidade e mantendo esses dados dentro do nosso perímetro de investigación. Quando a gente fala dos open source, a gente ainda tem uma total flexibilidade de customização que a gente não tem dentro dos modelos proprietários. Por mais que o modelo proprietário ele tenha mais investimento e ele consiga evoluir de forma mais rápida, o modelo openource ele ainda consegue manter a privacidade desses dados. Quando a gente trabalha com dados sensíveis de pessoas de investigação, a gente precisa manter essa privacidade. Então, dentro do contexto de cyber inteligente

gente rodar iso de forma local.

Quando a gente fala de unimodal ou multimodal, o que que muda na prática? No Unimodal, a gente tá falando de entradas somente de texto. Quando o chat GPT começou, a gente só podia digitar e fazer perguntas, mas hoje, atualmente a gente consegue utilizar imagens, vídeos e o multimodal veio para isso, para ele ser múltiplas entradas de dados e múltiplas saídas. Então hoje a multimodalidade é o futuro da cyberinteligcia automatizada, porque hoje a gente não tem mais só a questão do texto, a gente precisa de tudo para permitir que esses agenteses conam mundo, entendam como nós por texto, imago.

¿Y qué acontece cuando tenemos que usar LLMs en Darnets? ¿Qué aparece la censura? ¿Qué temáticas existen en Darnet? Tráfico de armas, tráfico de drogas, pedofilía, entre otras. Cuando le preguntamos a los LLMs por esta temática, directamente nos va a decir chao. Bien, para eso precisamos el LMS sin censura. Bien, son modelos de lenguaje modificados que remueven las restricciones del contenido, permitiendo generar o analizar informaciones sensibles como contenido de adultos o consideradas como polémicas. Bien, se eliminan los filtros de seguranza o de censura moral, responden libremente a instrucciones técnicas explícitas o controvertidas y no rechazan falar de temas delicados. Aquí tenemos alguno de los LLMs, bien que existen sin censura. Un punto muy importante, si quieren usar LLMs open source

gratuitos en local, precisan de una máquina como esta. Esto no es una computadora normal, esto es un equipo gaming que tiene una inversión, un costo alto. Bien, precisan de máquinas como esta o más que esta. Por lo tanto, ejecutar esto correctamente tiene un costo elevado. El LM, el LLM será open source, pero esto no es gratuito. Ven, privacidade importa na cyberinteligcia. A gente lida com dados sensíveis de poas, dados confidenciais. As investigações elas podem envolver alvos reais. Elas envolvem empresas, vítimas e vazamentos, onde a gente precisa garantir a o perímetro disso, a gente precisa deixar isso de forma local na nossa máquina. E esses dados de investigaes, eles não devem sair do do nosso ambiente. A gente precisa manter o

controle do armazenamento e da reutilização desses dados. Por isso a gente pode utilizar o cenário seguro, que seria o air gap, que seria rodar esses modelos de forma offline na nossa máquina. Por exemplo, se a gente coletar um dado da Dark Web, a gente pode coletar isso online, mas na hora de processar isso com o modelo de LLM, a gente precisa fazer isso de forma offline pra gente manter esses dados na nossa mão e não ter isso em servidores externos onde a gente tenha mais controle dessa informação. E rodar local é só mais uma opção, é uma exigência ética e legal. Rodar LMs localmente é uma exigência legal e ética que protege vítimas, evite basamento de

dados e cumpre normas com LGPD, GPDR. Hoje não tem como a gente garantir o armazenamento desses dados em servidores externos. Então a gente novamente a gente precisa que isso fique dentro do nosso ambiente. E quando a gente fala de ferramentas para rodar isso de forma offline, uma das ferramentas mais famosas o Elama, onde a gente tem um CLI para rodar modelos localmente como mistral, lama, de psique, pi. A instalação é simples e leve, roda em vários sistemas operacionis com suporte a GPU e ideal para rodar LMs em ambientes a gap. A gente tinha feito um vídeo do executando aqui um prom, mas eu acho que bem ruim de ver a imagem. Se o pessoal quiser o material depois é só chamar a

gente nas redes socios materiais da palestra. Mas basicamente isso aqui rodou offline. A gente fez uma pergunta para ele, ele trouxe todos os dados através de execução local mesmo do modelo. A gente tinha feito uma demo também do LM Studio onde a gente mostrou aquí a interface funciona no offline.

O LM studio é bem parecido com a interface do chat GPT. Ele é bem parecido com o M também que vem em seguida. Mas o mist ele vai comparar diversos modelos em na mesma resposta, tipo, ele vai te mostrar a resposta de vários modelos diferentes e você vai poder comparar, coisa que no LM Studio é só uma por vez. Então eu acabo preferindo utilizar

aquí, basicamente a a gente tinha passado um texto para ela extrair os ioc de um texto. Era como se a gente tivesse pego um dump lá da internet, tipo da darknet e pedido para ela extrair. Ela vai extrair os IPs, ela vai extrair toda a parte de domínios e etc. classificar isso pra gente offline,

pero con MCP, con el model protocol trocaron las reglas del yogo. ¿Qué es MCP? Ahora mismo todo el mundo fala de MCP, MCP. ¿Qué es MCP? Cuando hablamos de MCP es un protocolo que permite a los modelos de lenguaje interactuar directamente con ferramientas externas. Es conectar al LLM al mundo real y nos permite dar acceso a funciones del sistema. Es decir, el LLM puede tener acceso a nuestro file system para hacer operaciones dentro de nuestra máquina, transformar un LLM pasivo en un agente activo capaz de interactuar con el contexto, con el mundo real y modularizar habilidades. Es decir, cada ferramienta se conecta al modelo como un plugin. En el workshop de ontem conectamos el LLM a Shodam.

Consultamos por una IP de Shodam. El modelo se conectó al API de Shodan, trajo la información, la procesó y nos dio un relatorio. Eso es lo que proporciona MCP, conectar a nuestro modelo local para que responda con información que está fuera. Eso le da un potencial infinito. ¿Ven? Por ejemplo, podríamos solicitar al modelo conectarse a una página punonion que descargara el texto y la imagen, volara al LLM y analizara el texto, la imagen y nos diera un resumo de la propia página punonium. Eso lo hicimos ayer. Eso lo hicimos ayer en una demo. Ven que open hands. Open hands un framework open source para criarentes autónomos. Ele lê arquivos, analisa padrões, gera relatórios com base em objetivos. As

principais funções del são leitura, interpretação de documentos e textos extraídos, identificação de padres, correlações, geração de relatórios, sumários automáticos. Na verdade, o open hands ele é feito para automatizar os agentes autônomos e organizar, onde você pode criar um contexto e um objetivo para que esse agente automo realize uma tarefa e não só uma pergunta como no modelo passivo. A gente trouxe aqui sobre agentão pode falar um pouquinho. TIC. El el problema que tuvimos con la Tentic es una herramienta muy óptima, pero precisa de un equipo con unas características superiores a los nuestros, por lo tanto no pudimos ejecutarlo. Bien, Openek es eh como una versión gratuita local de Manus, bien, el cual también actúa como como un agente, ¿no?

permite realizar diferentes tareas como navegación web, depuración de código, reorganización de arquivos, ¿ven? Y también acceder a la nube o APIs externas. El problema que precisa de una máquina muy potente, ¿ven? Pero ahí lo entregamos como alternativa. También tenemos cosas como esta. Ayer hicimos también una demo sobre Open Deep Research. Open Deep Research se puede instalar también en local usando un modelo, por ejemplo, como quent y directamente solicitar mediante un prompt eh una precisón concreta y va a hacer una investigación profunda, recurrente hasta generar un relatorio y todo eso se puede ejecutar nuevamente en local. Y también tenemos herramientas como browser Use. Browser use permite que el LLM controle nuestro browser. Se pueden solicitar tarefas para que

nuestro browser las ejecute de forma automatizada. Y también tenemos eh frameworks como Prison, el cual es una plataforma open source que permite ejecutar, comparar y visualizar diferentes modelos a partir de la infterfaz web única. Prison permite generar diferentes agentes que trabajan entre sí. un agente que descarga la información, otro que redacta, otro que traduce y otro que orquesta todo el proceso. Es como diferentes eh agentes eh personalizados y y optimizados para diferentes tareas, trabajando juntos.

Com esas ferramentas, qualquer equipe pode executar LMS com segurança, privacidade, flexibilidade sem depender de nuvem ou de terceiros. Quando a gente fala do modelo passivo do LLM, a gente está falando de modelos que só respondem a comandos. Ele não toma iniciativa, não executa nenhuma tarefa externa, não faz conexão com APIs, ele não faz a conexão cono serviço. Ele tá somente ali no modelo simples, onde a gente tem perguntas e respostas. Um exemplo de comportamento, por exemplo, descreva o conteúdo dessa página pontum, ele vai responder com base no texto que copiou e colou, só o que tiver no modelo daquela informação daquela URL. Se utilizar um agente autónomo, ele recebe uma meta. Então, quando fala que eu quero que me

diga o que que tem nessa página, acesse ela, baixe o conteúdo, extraia os e-mails e analise preços, categorize os dados e envie um relatório. Então ele vai cumprir essa meta através de conexões externas, através de API como Shodan, como conexões direto com a Redstória, etc. para cumprir aquele objetivo e poder gerar o relatório. Ele não vai ficar só preso ali dentro do modelo ou a gente vai fazer várias funções para chegar no objetivo. E quando a gente fala de cenário real, a gente falando, por exemplo, de uma investigação de venda ilegal de substâncias controladas no Darknet. Aqui a gente criou um contexto de você salv postagem no subfórum Drug Hubs no Dreads. Nel o vendedor ele anuncia a

venda de Ritalina metfenidato, uma substância controlada usada para TDAH. Quando a gente fala do objetivo do analista de caber inteligência, aqui a gente tá falando de analisar essa postagem, ver se ela representa um risco criminal, identificar qual substância, forma de venda, preços, localização e criptomoedas utilizadas e gerar um relatório em cima disso. E quando a gente fez isso com llivo via, por exemplo, a gente simplesmente passou o prompt pra ferramenta e quando a gente passou esse prometion categoriz pra gente os dados de acordo com a matéria lá do da rede, a gente poder ter feito isso online, ter trazido todos os dados lá do fórum e ter usado a LLM offline para gente poder classificar

Esses dados aqui a gente fez totalmente offline, a gente mesmo coletou os dados, mas a gente poderia usar um agente autônomo aqui para fazer todo o processo. Assim como no processo do agente automo aqui, a gente fez totalmente offline. Então a gente passou esse HTML e a gente passou algumas etapas para ele, como parcial, HTML, localizar, extrair o conteúdo principal da postagem, enviar o texto para análise com modelo local. Eu sei que vai ficar impossível de ler os códigos, mas depois no material vocês podem dar uma olhada. Na verdade, a gente cria as funções do que ele vai fazer dentro do agente autônomo, as conexões e aí a gente envia somente o resultado disso pro LLM

processar. Então, quando a gente já fez toda a coleta, a gente já extraiu todos os dados lá da Darknet, a gente passa o promit e o e os dados que ele coletou dentro do código paraer o processamento desses dados offline. E aquí gera o relatório bonitinho PDF, finaliza isso como LLM multimodal.

E aí a comparação aquí, o LLM tem uma ação reativa, o agente autónomo é mais proativo. O objetivo do LLM é executar uma pergunta, o agente autónomo planeja e ele interage com aquele processo. A ferramenta do LLM, ele não vai utilizar uma ferramenta. Já o agente automo vai usar navegador, API o CR, vai fazer parcer, vai conectar com a PI que quiser. avaliação, o Ll avalia o resultado. O agente autônomo ele pode avaliar e ajustar um resultado. No LLM a gente tem aqui como exemplo resuma isso. No agente autónomo a gente vai ter vá até lá, colete, analise, reporte vai ter objetivo, uma meta para cumprir. Então se lm a mente a gente corpo, pensa e a

aprende o que a gente temo caso prático que foi o processamento com LM local. A gente utilizou o modelo Mistral. Aqui a gente identificou um dump de mensagens extraídas de um grupo do Telegram hospedado na Dark Web. O conteúdo bruto está em formato Jason e inclui conversas em múltiplas linguagens. Aqui a gente tem emojis, possíveis URLs maliciosas, além de menes golpes e etc. E a gente queria classificar tudo isso através do LLM. Então a gente peg dump e a gente fez todo un processo de agente automoomo para realizar a o processamento desses dados que estav nesse dump. E aí aquí a gente fez todo o processamento com agente autônomo, passou pro modelo mistral através de

olhama local offline e ele categorizou aqui. Ele pegou o dump, categorizou as linguagens, falou o sentimento de cada emoji e ele colocou tudo bonitinho, organizado pra gente no documento. Então, coletar é só metade do trabalho. O valor real tá em como a gente vai transformar esses dados coletados e inteligas usando o LLM. a gente utilizar para dar un contexto de inteliges dados brutos. Para finalizar el último punto, hay que tener en cuenta que todo lo que hemos el es legal, pero hay que tener en cuenta que los actores maliciosos también lo van a usar en el uso de Open Llms Opensor multimudales y locales para realizar en este caso, acciones de contrainteligencia para ocultar identidades, operación,

infraestructura, detectar vigilancia o infiltración, engañar a los investigadores y manipular el ambiente informacional dentro de las Darnet. Bien, tener en cuenta que este tipo de tecnología se usa en los dos sentidos. Bien, si usted acredita que los LLM son solo para analistas éticos, Bosé ya está atrasado. Ellos ya fueron adoptados por todos los lados de la guerra digital. Tanto si vos es un Jedi como si vos es un está implantado en un lado y en otro. Bien, mucho cuidado con el hype porque la contrainteligencia existe. Okay. Y hasta aquí dúbidas, preguntas y como siempre estamos fuera de tempo. Muchas gracias. Solo una cosa más. Si alguien te da dudas fuera nos tomamos un café y

falamos.

BSides SP 2025 - Ciberinteligência com LLMs

Related talks