Haga que las pruebas de regresión manuales sean más rápidas, más inteligentes y más específicas. Véalo en acción >>
Abordando las inquietudes de la NASA sobre el uso de LLM en desarrollos críticos para la seguridad
GenAI puede agilizar tareas de ingeniería como la elaboración de casos de seguridad, pero la NASA advierte que su tendencia a generar contenido creíble pero no verificado hace que la supervisión humana sea esencial en sistemas críticos. Continúe leyendo para descubrir cómo la combinación de LLMs restringidos con evidencia trazable y una revisión rigurosa ofrece un camino más seguro.
Saltar a la sección
GenAI puede agilizar tareas de ingeniería como la elaboración de casos de seguridad, pero la NASA advierte que su tendencia a generar contenido creíble pero no verificado hace que la supervisión humana sea esencial en sistemas críticos. Continúe leyendo para descubrir cómo la combinación de LLMs restringidos con evidencia trazable y una revisión rigurosa ofrece un camino más seguro.
La IA generativa se ha convertido en una herramienta de ingeniería cotidiana en tiempo récord. Los equipos de desarrollo ahora dependen de grandes modelos de lenguaje (LLM) para redactar código y resumir los resultados de las pruebas, incluso para redactar casos de seguridad en el lenguaje que exigen los organismos reguladores. desarrollo crítico para la seguridad integrado.
La generación de evidencia de cumplimiento para el desarrollo crítico para la seguridad sigue siendo un proceso manual y propenso a errores. Los equipos exportan registros de pruebas unitarias, etiquetan manualmente las tablas de seguimiento y redactan diagramas de Notación Estructurada por Objetivos (GSN) línea por línea.
Lo que hace que los modelos de lenguaje grandes sean tan útiles es que pueden generar esos artefactos automáticamente, siempre y cuando los limitemos a fuentes verificables.
Sin embargo, un informe reciente de la NASA advirtió contra el uso de LLM en este sentido. El artículo, "Análisis de los usos propuestos de los LLM para elaborar o evaluar argumentos de garantía”, se pregunta si se puede confiar en la tecnología que genera textos con sonido natural cuando hay vidas que dependen de ello. Los autores argumentan que el problema fundamental es que los LLM buscan respuestas plausibles, no hechos comprobados. Por lo tanto, cuando surge un problema tan simple como una sola cita inventada, podría invalidar todo un paquete de certificación. O algo peor.
En el desarrollo crítico para la seguridad, toda conclusión debe respaldarse con un argumento verificable que demuestre su seguridad. Esto se denomina argumento de garantía y, junto con otros documentos, constituye lo que se conoce como argumento de seguridad.
Los argumentos de seguridad suelen estructurarse con la Notación de Estructuración de Objetivos (GSN), un diagrama gráfico formal que divide cada afirmación de seguridad en subobjetivos basados en la evidencia. Estos son ampliamente recomendados por estándares como ISO 26262 (automoción), DO-178C (aviación)y marcos similares donde cada afirmación debe atribuirse a evidencia objetiva y verificable. Requiere mucho tiempo, por lo que usar GenAI para este propósito es tan útil.
Pero si usted lee el documento de la NASA y se ocupa de la seguridad, calidad o cumplimiento del software, es posible que le preocupen los ejemplos de bandera roja que la NASA plantea por el uso de LLM para esto.
En las siguientes secciones, traduciremos sus advertencias en medidas de seguridad prácticas y mostraremos dónde la IA disciplinada aún puede aportar valor sin poner en riesgo la aprobación.
Los autores de la NASA abordan un concepto erróneo que la mayoría de los equipos de desarrollo ya conocen: que, dado que los LLM suenan autoritarios con sus respuestas, deben ser precisos.
El informe demuestra, ejemplo tras ejemplo, lo errónea que es esta suposición. Hay LLM que inventan referencias, citan erróneamente las regulaciones y pasan por alto los riesgos excepcionales que determinan el éxito o el fracaso de un argumento de seguridad. El veredicto de la NASA es que, hasta que estudios repetibles demuestren su fiabilidad, cualquier argumento generado por LLM debe considerarse experimental y ser revisado línea por línea por ingenieros cualificados.
Su conclusión no es que la IA deba prohibirse, pero señalan que su uso parece desviar tiempo y responsabilidades a otras áreas, en lugar de simplemente ahorrar una cantidad considerable de tiempo. El ingeniero ya no escribe cada frase, claro está, pero ahora cada línea que propone el LLM debe ser revalidada. Por lo tanto, cualquier mejora en la eficiencia del desarrollo, según el artículo, conlleva una nueva carga de supervisión.
Si su título incluye garantía de diseño, seguridad de software, director de control de calidad o ingeniero principal de sistemas, los problemas destacados por la NASA afectan directamente su flujo de trabajo.
Como dice la NASA, los LLM son excelentes para sonar correctos, pero carecen de un sentido innato de la verdad. Pueden inventar hechos, pasar por alto fallos puntuales y citar fuentes inexistentes.
Sin embargo, si se usa con cuidado, este mismo modelo también puede identificar posibles puntos débiles, a veces llamados "defeaters". Pueden analizar los registros de pruebas en busca de brechas de cobertura y los informes de análisis estático en busca de infracciones recurrentes. Esto permite a su equipo solucionar los problemas antes de que un auditor los detecte.
En todos los ámbitos críticos para la seguridad (aviónica, ferroviaria, médica), se puede permitir que las herramientas de IA escriban código, sugieran pruebas o agrupen defectos, pero solo si el contenido generado por la IA se vincula con evidencia que se pueda rastrear y reexaminar. Y como los LLM pueden parecer seguros incluso cuando se equivocan, un revisor humano aún debe preparar o aprobar el argumento de garantía final.
Para trabajos críticos para la seguridad, coincidimos con la conclusión de la NASA: un LLM puede ser útil, pero un profesional cualificado debe desarrollar y aprobar el argumento de garantía. El esfuerzo requerido depende del nivel de verificación que exige cada sector. Los errores que se pasan por alto cuestan dinero en la nube, pero podrían costar vidas en el mundo real.
El artículo de la NASA también señala la cantidad de código automatizado por IA que generan actualmente las canalizaciones modernas. Mucho más de lo que los humanos pueden revisar y generar evidencia de seguridad por sí solos.
Para gestionar ese volumen, necesita herramientas que permitan clasificar los hallazgos de forma determinista primero y, posteriormente, permitir que un LLM local y de alcance limitado reexprese esos resultados verificados. En esta situación, soluciones como los flujos de trabajo de análisis estático de Parasoft le mostrarán las infracciones más importantes. Pueden agrupar esos hallazgos verificados y marcar los que los auditores realmente necesitan ver, sin añadir información adicional (real o inventada) a las pruebas que ya sabe que son correctas.
Los hallazgos clasificados pueden entonces pasarse a un LLM con barandillas para resumirlos y darles el formato adecuado. Las barandillas son útiles cuando se desea reexpresar con precisión los resultados a los auditores. Las barandillas son restricciones explícitas sobre lo que el modelo puede ver, reglas sobre cómo puede responder y verificaciones posteriores sobre lo que produce. Su objetivo es evitar que el LLM invente nueva información.
Para un ejemplo crítico para la seguridad, piense en un proyecto aeroespacial donde un LLM local y restringido condensa un informe de análisis estático de 50,000 líneas en 10 patrones de defectos priorizados en 45 segundos para que los ingenieros puedan concentrarse en problemas críticos.
También se observa que la IA podría volver obsoleto el término "prueba de autorreparación", ya que la adaptación dinámica puede corregir una afirmación errónea antes de que el evaluador se dé cuenta. Esta posibilidad podría entusiasmar a los equipos de DevOps, pero aterrar a los ingenieros de seguridad.
El artículo de la NASA nos recuerda por qué: si la corrección en sí misma es incontrolable o imposible de rastrear, la solución es peor que el fallo. Por lo tanto, el enfoque de Parasoft consiste en registrar cada "corrección" automatizada junto a la línea base fallida, de modo que el usuario siga dando su aprobación.
Los autores de la NASA concluyen que, hasta que estudios repetibles demuestren su fiabilidad, todo argumento de seguridad generado por LLM debe considerarse estrictamente un experimento. Son útiles para explorar, pero nunca es seguro implementarlos basándose únicamente en la confianza, y es cuestionable cuánto tiempo realmente ahorran.
Dado que la IA avanza a un ritmo acelerado, la mentalidad abierta y la experimentación son clave. Parasoft está explorando funciones que validan los fragmentos de seguridad generados por LLM con la evidencia real de nuestras herramientas. Recientemente, por ejemplo, llevamos a cabo un proyecto de investigación interno sobre cómo un modelo específico de dominio, entrenado únicamente con artefactos y patrones de seguridad de Parasoft, podría ofrecer mayor fiabilidad que un chatbot de propósito general.
Sin embargo, siguiendo la recomendación de la NASA, consideramos todo este tipo de trabajo como experimental hasta que la comunidad presente pruebas independientes de seguridad y rentabilidad. En general, creemos que los beneficios en términos de tiempo son muy reales.
Un LLM con restricciones que se basa en registros de pruebas, enlaces de rastreo y escaneos de código probados no solo es una herramienta excelente, sino que es necesario para mantenerse al día. Sin embargo, dado que aún puede inventar cosas (y es convincente al respecto), aún se necesita una persona para verificar los hechos.
Pero están aprendiendo rápido. Tan rápido que algunos modelos ya detectan las infracciones del análisis estático mejor que nosotros. Úsalos con la evidencia a mano, con prudencia, y quizás puedas convertir la ardua revisión de hoy en una ventaja para mañana.
¿Quieres aprender más sobre el uso de LLM en el desarrollo crítico para la seguridad?
Contenido recomendado