 |
 |
 |
|
 |
 |
 |
 |
Herramientas integradas para la explotación de un corpus de habla espontánea en
español. (Antonio Moreno-Sandoval, José M. Guirao)
- Antonio Moreno-Sandoval
- antonio.msandoval@uam.es
- Universidad Autónoma de Madrid
- Madrid
- Spain
- José M. Guirao
- jmguirao@ugr.es
- Universidad de Granada
- Granada
- Spain
Esta comunicación presentará un sistema de consulta a un corpus de habla
espontánea en español, concretamente el corpus C-ORAL-ROM (Cresti &
Moneglia eds. 2005; Moreno et al. 2005). El corpus español está formado por 181
sesiones transcritas, de diferentes registros y situaciones comunicativas. Con
más de 42 horas de grabación y casi 500 hablantes, el corpus contiene alrededor
de 312.000 palabras (tokens) de 21.000 tipos diferentes.
El sistema utiliza como interfaz con el usuario una página web, aunque también
podrá utilizarse como una aplicación independiente. El sistema se compone de
tres módulos principales:
- Un buscador de concordancias de texto y sonido: busca palabras o
expresiones en todos los textos del corpus C-ORAL-ROM en español y
recupera cada una de las "utterances" donde aparece la palabra así como
el fragmento sonoro (en mp3). De esta manera el usuario puede oír el
sonido original, no solo su transcripción. (Figura 1)
- Un analizador morfológico del español, basado en un lexicón de gran
cobertura, que proporciona todas los análisis posibles para una forma
dada (Figura 2)
- Un etiquetador categorial (PoS tagger) de oraciones del español, que
proporciona el análisis sintáctico superficial para una oración. Las
posibilidades de explotación del corpus y el análisis lingüístico que
aporta este sistema son numerosos y se mostrarán algunos ejemplos
aplicados a la enseñanza del español.
 |
| Figure 1 shows the concordances for the multi-word al fin y al cabo (at last)
|
 |
| Figure 2 displays all possible analyses for the word sobre (about, envelop, to be left over)
|
 |
| Figure 3 shows the PoS analysis for the sentence "John put an envelop on the table". |
Bibliografía
- Cresti, Emanuela, and Máximo Moneglia,
eds. 2005. C-ORAL-ROM Integrated Reference
Corpora for Spoken Romance Languages. Amsterdam: John Benjamins.
- Moreno, Antonio, Guillermo de la
Madrid, Manuel Alcántara, et al. 2005.
'The Spanish
corpus'
. In C-ORAL-ROM Integrated Reference Corpora
for Spoken Romance Languages, 135-161. Amsterdam: John
Benjamins
|
 |
 |
 |
 |
|
|