Temas 4-5.

Diccionarios e informática
Bloque 2. Fuentes y corpus
Material complementario
Para saber más sobre corpus lingüísticos informatizados
• Excelente recurso para entender qué significan los corpus en el trabajo lingüístico:
Joaquim Llisterri (2007).
• Kennedy, Graeme (1998). An Introduction to Corpus Linguistics. Londres: Longman.
1.- Introduction; 1.1.- Corpora; 1.2.- The role of computers in corpus linguistics; 1.3.- The
scope of corpus linguistics; 2.- The design and development of corpora; 2.1.- Pre-electronic
corpora; 2.2.- Types of electronic corpora; 2.3.- Major electronic corpora for linguistic
research; 2.4.- Electronic text databases; 2.5.- issues in corpus design and compilation;
2.6.- Compiling a corpus; 2.7.- Organizations and professional associations concerned with
corpus design, development and research; 3.- Corpus-based descriptions of English; 3.1.-
Lexical descriptions; 3.2.- Grammatical studies centered on morphemes and words; 3.3.-
Grammatical studies centered on the sentence; 3.4.- Pragmatics and spoken discourse;
3.5.- Corpus-based studies of variation in the use of English; 4.- Corpus analysis; 4.1.-
Corpus annotation and processing; 4.2.- Procedures used in corpus analysis; 4.3.- Corpus
search and retrieval software; 5.- Implications and applications of corpus-based analysis; 5.-
Goals of linguistic description and the effect of corpora on methodology; Corpus linguistics
and computational linguistics; 5.3.- Corpus-based approaches to language teaching.
• Ejerhed, Eva; Church, Ken (1997). “Written Language Corpora”. En Cole, R. A. et al. (eds.).
Survey of the State of the Art in Human Language Technology. Cambridge: Cambridge
University Press. 445-449.
• Arrarte, Gerardo (1999). “Normas y estándares para la codificación de textos y para la
ingeniería lingüística”. En Blecua, J. M. et al. (eds.). Filología e informática. Nuevas
tecnologías en los estudios filológicos. Barcelona: Milenio. 17-44.
• Sperberg-McQueen, C. M.; Burnard, Lou (eds.) (2002). TEI P4: Guidelines for Electronic
Text Encoding and Interchange. Text Encoding Initiative Consortium. XML Version: Oxford,
Providence, Charlottesville, Bergen.
• Biber, Douglas (1993). “Representativeness in corpus design”. Literary and Linguistic
Computing 8 (4). 243-257.
• Renouf, Antoinette (1987) "Corpus development". in SINCLAIR, J. (ed.). Looking Up. An
Account of the COBUILD Project. Birmingham: Collins. 1-40
• Torruella, Joan; Llisterri, Joaquim (1999). “Diseño de corpus textuales y orales”. En Blecua,
J. M. et al. (eds.). Filología e informática. Nuevas tecnologías en los estudios filológicos.
Barcelona: Milenio. 45-77.
• Barnbrook, Geoff (1996). Language and Computers. A Practical Introduction to the
Computer Analysis of Language. Edinburgo: Edinburgh University Press.
1.- Why use a computer; 2.- First capture your data; 3.- Examining the catch: using
frequency lists; 4.- Studying the environment: using concordances; 5.- The sociology of
words: collocations; 6.- Putting them in their place: tagging, parsing and so on; 7.- The
leading edge: applications of natural language processing; 8.- Case studies.
• Pérez Guerra, Javier (1998). Análisis computarizado de textos. Una introducción a TACT.
Vigo: Universidade de Vigo.
Parte I. Introducción a la lingüística de corpus; 1. Introducción. Los corpus y la lingüística;
2. Historia de la lingüística de corpus; 3. Concepto de "corpus de textos". Hacia el corpus
electrónico; 3.1 Introducción; 3.2 Tamaño del corpus; 3.3 Rigor en la selección del material;
3.4 Codificación de los textos; 4. Anotaciones en los corpus; 4.1 Introducción; 4.2
Categorías de anotación; 4.3 COCOA: la versatilidad al servicio de la simplificación; 4.4
Hacia el estándar de la anotación textual: SGML-TEI; 4.5 De SGML a TDB: una
introducción a SGML2TDB; 5. Creando nuestro corpus informatizado: computarizando el
texto. Parte II. Introducción al análisis textual asistido por ordenador: TACT; 1. Introducción;
Diccionarios e informática
Bloque 2. Fuentes y corpus
2. TACT como herramienta de análisis textual: aspectos introductorios; 3. Eligiendo y

preparando el texto para su análisis mediante TACT; 4. TACT al completo; 4.1 Los
primeros pasos; 4.2 Haciendo la base de datos textuales: MakeBase; 4.3 Creando un TDB
específico para textos HSMS: HSMS2TDB; 4.4 Búsquedas en la base de datos textuales:
UseBase; 4.5 Manejo de corpus de grandes dimensiones: MergeBas y BuildBat; 4.6
Anotando automáticamente corpus crudos mediante diccionarios electrónicos: PreProc,
MakeDCT, TagText y SatDCT; 4.7 Similitudes léxicas y lexicográficas de palabras y frases:
Anagrams y CollGen; 4.8 Subprogramas de manipulación de datos: TACTFreq, TACTSort y
Fcompare; 4.9 Obteniendo información estadística de las palabras en el corpus: TACTStat;
5. Nuestros TDB en Internet: TACTWEB. Apéndices - 1. DTD de TEI Lite (un extracto con
elementos y atributos manejados en Parte I); 2. Elementos y atributos de TEI Lite; 3. Más
sobre TACT ; Extensiones de los archivos producidos por TACT; Tutoriales sobre TACT vía
Internet; Niebla.txt (con anotaciones); Niebla.mks; Esquema general de TACT; 4. Glosario
General de términos frecuentes; 5. Fuentes de textos electrónicos (español e inglés) a
través de Internet; 6. Referencias; Algunas referencias bibliográficas útiles; Texto
empleado; Revistas especializadas; Otras referencias de interés.
• Civit Torruella, Montserrat (2003). Criterios de etiquetación y desambiguación

morfosintáctica de corpus en español. Alicante: Sociedad Española para el Procesamiento
del Lenguaje Natural.
1.- Marco general: La Lingüística de Corpus; 2.- Anotación morfológica; 3.-
Desambiguación morfológica; 4.- Análisis sintáctico del español: GramEsp; 5.- Anotación
sintáctica de corpus; 6.- Conclusiones; Apéndices: A.- Locuciones; B.- GramEsp; C.-
Etiquetas utilizadas para la anotación de Cast3LB; D.- Corpus CLiC-TALP desambiguado;
E.- Corpus CLiC-TALP analizado sintácticamente; F.- Corpus CLiC-TALP anotado
sintácticamente.
• Civit Torruella, Montserrat; Castellón, Irene; Martí, M. Antonia (2001). “Creación,

etiquetación y desambiguación de un corpus de referencia del español”. Procesamiento del
Lenguaje Natural 27. 21-28.
• Vera Lujan, Agustín (1998). “Proyecto Fénix: Los medios de comunicación como recurso
lingüístico”. En La lengua española y los medios de comunicación. México: Siglo XXI
Editores en coedición con la Secretaría de Educación Pública (México) y el Instituto
Cervantes (España). Vol. 2. 1331-1338.
• Teubert, Wolfgang (2001). “Corpus linguistics and lexicography”. International Journal of
Corpus Linguistics 6. 125-153.

Temas 4-5.

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Temas 4-5.

Uploaded by

Copyright:

Available Formats

Diccionarios e informática

Bloque 2. Fuentes y corpus

Para saber más sobre corpus lingüísticos informatizados

2. TACT como herramienta de análisis textual: aspectos introductorios; 3. Eligiendo y

• Civit Torruella, Montserrat (2003). Criterios de etiquetación y desambiguación

• Civit Torruella, Montserrat; Castellón, Irene; Martí, M. Antonia (2001). “Creación,

You might also like