¡Descubre GoogleTest, con certificación TÜV y la tecnología Agentic AI para pruebas de C/C++!
Obtenga los detalles »
White Paper
Eche un vistazo al estudio a continuación.
Este estudio evalúa cómo las plantillas de indicaciones de GitHub Copilot y Parasoft generan correcciones de código para las violaciones de análisis estático detectadas por Parasoft C / C ++testAmbas herramientas utilizaron GPT-4o, con correcciones evaluadas utilizando GPT-4o-2024-08-06 para comparaciones por pares.
Los resultados muestran que las indicaciones de Parasoft superaron significativamente a GitHub Copilot: con preguntas de razonamiento, Parasoft superó a Copilot en el 64.45% de los casos, empató en el 20.5% y tuvo un rendimiento inferior en el 15.05%. Las indicaciones simples, sin razonamiento, superaron a Copilot en el 57.16% de los casos.
El análisis manual sugiere que las indicaciones de Parasoft producen soluciones más completas y sólidas a través de la documentación de reglas y el razonamiento en cadena de pensamiento.
| Ratio de victorias | Tasa de empate | Tasa de pérdida | |
|---|---|---|---|
| Copiloto de GitHub | 0.150895 | 0.204604 | 0.644501 |
| Prueba de C++ con preguntas de razonamiento | 0.644501 | 0.204604 | 0.150895 |
| Ratio de victorias | Tasa de empate | Tasa de pérdida | |
|---|---|---|---|
| Copiloto de GitHub | 0.199488 | 0.2289 | 0.571611 |
| Prueba de C++ sin preguntas de razonamiento | 0.571611 | 0.2289 | 0.199488 |
| Copiloto de GitHub | Prueba de C++ con razonamiento | Prueba de C++ sin razonamiento | |
|---|---|---|---|
| Copiloto de GitHub | - | 0.150895 | 0.199488 |
| Prueba de C++ con razonamiento | 0.644501 | - | 0.313433 |
| Prueba de C++ sin razonamiento | 0.571611 | 0.186567 | - |
La visualización demuestra claramente el rendimiento superior de Parasoft C++test en ambos enfoques de indicaciones:
En ambas configuraciones, C++test gana con más frecuencia que empata o pierde en conjunto, lo que demuestra una superioridad constante en la calidad de las correcciones.
Este análisis demuestra que las correcciones obtenidas con las indicaciones de Parasoft obtienen sistemáticamente mejores resultados que las de GitHub Copilot. Se observa un rendimiento tanto para las variantes de indicaciones simples como para las de razonamiento, siendo estas últimas ligeramente mejores.
La inspección manual de los datos de muestra reveló que las correcciones generadas con las indicaciones de Parasoft suelen ser más completas (como solucionar todas las instancias de un problema en líneas adyacentes), más sólidas (implementan un mejor manejo de errores) y se ajustan a las prácticas de codificación estándar.
Se plantea la hipótesis de que el rendimiento superior se debe a dos factores clave en el diseño del sistema de Parasoft:
Estos elementos trabajan juntos para mejorar las capacidades de generación de correcciones del modelo, lo que da como resultado correcciones de código más confiables y completas.
Este estudio reconoce varias limitaciones metodológicas:
¿Listo para sumergirte más profundamente?