Los investigadores de Microsoft demostraron que aunque no es fácil para la inteligencia artificial formar párrafos en oraciones no es imposible

Recuerda los sistemas como Primer, que utilizan AI para analizar y recopilar una gran cantidad de documentos. Pero la IA de Microsoft es mucho más generalizable.

“El resumen automático requiere un componente de aprendizaje automático para identificar entidades importantes y las relaciones entre ellas, mientras se ignoran las redundancias y los conceptos comunes. Sin embargo, mientras que los modelos estándar en teoría tienen la capacidad de manejar relaciones de larga distancia arbitrarias, en la práctica a menudo fallan Maneja textos largos y se distrae fácilmente con el simple ruido “.

Su solución de dos pasos consistió en un codificador de secuencia extendida (un modelo de AI que procesa una secuencia de entrada y predice los siguientes caracteres de la secuencia de destino, dados los caracteres anteriores de la secuencia de destino) y una red neuronal que aprendió directamente de las representaciones gráficas de Lenguaje natural anotado.

El sistema híbrido seleccionó un codificador de secuencia (uno extendido para aprovechar las relaciones conocidas entre los elementos en los datos de entrada) para alimentar una red gráfica con “entrada enriquecida”: una red bidireccional a largo plazo (LSTM) y una extensión de secuencia GNN, y una Decodificador LSTM con una extensión de red de puntero. (Los LSTM bidireccionales son una categoría de red neuronal recurrente que son capaces de aprender dependencias a largo plazo; permiten que las redes neuronales combinen su memoria y entradas para mejorar su precisión de predicción).

Se seleccionaron dos conjuntos de datos para la primera tarea: un pequeño conjunto de datos Java, que se dividió para capacitación, validación y prueba; y un segundo conjunto de datos generado a partir de 23 proyectos de código abierto en C # extraído de GitHub.

 

¿Qué tan bien funcionó el sistema de inteligencia artificial?

Las Sequence GNN lograron un rendimiento de vanguardia en la tarea de denominación de métodos en los conjuntos de datos de Java y C # con puntuaciones F, sin embargo, se realizó un poco peor en el Método doc, que los investigadores atribuyen a la longitud de las predicciones. En resumen, no llegó al trabajo reciente; Dicho esto, los investigadores creen que es “debido al descodificador simplista” y al “objetivo de entrenamiento”, y que se puede mejorar en futuros trabajos.

“Estamos entusiasmados con este progreso inicial y esperamos una integración más profunda del modelado mixto de gráficos de secuencia en una amplia gama de tareas, tanto en lenguajes formales como naturales”, escribieron. “La idea clave, que creemos que es ampliamente aplicable, es que los sesgos inductivos inducidos por el modelado explícito de relaciones son una manera simple de mejorar el rendimiento práctico de los sistemas de aprendizaje profundo existentes”.

 

 

Fuente: Venture Beat

author image

About Juan Trinidad Mayo

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

También podría gustarte...