layout text
layout text
layout text
layout text
layout text layout text
layout text

Español | English

Herramientas integradas para la explotación de un corpus de habla espontánea en español.
(Antonio Moreno-Sandoval, José M. Guirao)

Antonio Moreno-Sandoval
antonio.msandoval@uam.es
Universidad Autónoma de Madrid
Madrid
Spain
José M. Guirao
jmguirao@ugr.es
Universidad de Granada
Granada
Spain

Esta comunicación presentará un sistema de consulta a un corpus de habla espontánea en español, concretamente el corpus C-ORAL-ROM (Cresti & Moneglia eds. 2005; Moreno et al. 2005). El corpus español está formado por 181 sesiones transcritas, de diferentes registros y situaciones comunicativas. Con más de 42 horas de grabación y casi 500 hablantes, el corpus contiene alrededor de 312.000 palabras (tokens) de 21.000 tipos diferentes.

El sistema utiliza como interfaz con el usuario una página web, aunque también podrá utilizarse como una aplicación independiente. El sistema se compone de tres módulos principales:

  1. Un buscador de concordancias de texto y sonido: busca palabras o expresiones en todos los textos del corpus C-ORAL-ROM en español y recupera cada una de las "utterances" donde aparece la palabra así como el fragmento sonoro (en mp3). De esta manera el usuario puede oír el sonido original, no solo su transcripción. (Figura 1)
  2. Un analizador morfológico del español, basado en un lexicón de gran cobertura, que proporciona todas los análisis posibles para una forma dada (Figura 2)
  3. Un etiquetador categorial (PoS tagger) de oraciones del español, que proporciona el análisis sintáctico superficial para una oración. Las posibilidades de explotación del corpus y el análisis lingüístico que aporta este sistema son numerosos y se mostrarán algunos ejemplos aplicados a la enseñanza del español.


Figure 1 shows the concordances for the multi-word al fin y al cabo (at last)
Figure 1 shows the concordances for the multi-word al fin y al cabo (at last)
Figure 2 displays all possible analyses for the word sobre  (about, envelop, to be left over)
Figure 2 displays all possible analyses for the word sobre (about, envelop, to be left over)
Figure 3 shows the PoS analysis for the sentence "John put an envelop on the table".
Figure 3 shows the PoS analysis for the sentence "John put an envelop on the table".

Bibliografía

  • Cresti, Emanuela, and Máximo Moneglia, eds. 2005. C-ORAL-ROM Integrated Reference Corpora for Spoken Romance Languages. Amsterdam: John Benjamins.
  • Moreno, Antonio, Guillermo de la Madrid, Manuel Alcántara, et al. 2005. 'The Spanish corpus' . In C-ORAL-ROM Integrated Reference Corpora for Spoken Romance Languages, 135-161. Amsterdam: John Benjamins
layout text layout text
layout text layout text
layout text
layout text layout text