La Linguistica de Corpus

Tema 6
La lingüística corpus
6.1 Naixement de la lingüística de corpus
Eines informàtiques i aplicacions lingüístiques

El model racionalista: Generativisme
(Chomsky, 1957)
• Els enunciats d’una llengua són infinits.

• No hi pot haver cap repertori finit de dades adequat
per a l’explicitació dels mecanismes de producció
lingüística.
• No és un plantejament que pugui confiar en els
corpus.
• Confiança en la competència lingüística i la
introspecció.
2
Però...
La competència lingüística i la introspecció

suposen:
• judicis no observables
• difícil verificació
• artificialitat
• vaguetat i relativitat de la freqüència
3
El model empiricista
• Les oracions d’una llengua natural són
potencialment infinites, però se’n pot
recopilar mostres de l'experiència lingüística
(corpus).
• El coneixement lingüístic es pot inferir a
partir de l’experiència (corpus textuals) i es
pot extrapolar fins a cert punt a partir de la
generalització.
4
ANYS 90  Naixement de la disciplina:
Lingüística de corpus
Paper crucial de la tecnologia:
El desenvolupament tecnològic permet la creació de corpus

d’envergadura, que cada vegada es fan més extensos i més
complexos.
5
Què és un corpus
Un corpus és una col·lecció d’elements lingüístics
seleccionats i ordenats d’acord amb criteris
lingüístics explícits i amb la finalitat de ser usat com
a mostra de la llengua.
(Sinclair, 1996)  Pare de la lingüística de corpus
6
Caracterítsiques dels corpus
• Col·leccions de textos, primordialment.

També poden ser llistats de frases o mots.
• Mostra de la llengua.
• Mida finita.
• Digitals (els textos en paper també són en
essència corpus, però en l’àmbit que ens
movent no es consideren).
7
Atenció al copyright!!
Com es crea un corpus

Sistema menys
usat. Útil per a
textos antics
CORPUS
8
Corpus de referència
• Són corpus molt extensos (es recopilen molts textos i el

resultat són milions de paraules).
• Els textos són molt variats quant a temàtica (esports,

química, història...) i tipologia (periodístics, literaris,
científics...)
• La llengua usada és l’estàndard.
• Són elaborats per institucions de referència, com

acadèmies de la llengua.
9
Corpus de referència
Volen ser una mostra REPRESENTATIVA de la
llengua:
• El coneixement lingüístic que se n’infereixi és

extrapolable a la llengua en general, es pot usar per
descriure com és una llengua (sempre amb limitacions).
• Els resultats obtinguts permeten fer comparacions amb

els que se’n derivin d’altres corpus amb les mateixes
característiques, de la mateixa llengua o d’altres
llengües.
• Solen ser de lliure distribució, perquè majoritàriament

són realitzats per organismes públics.
10
Objectius i metodologia
• Observar molts exemples per inferir com és la llengua i
millorar la descripció d’aquestes.
• La tecnologia no solament ha permès recopilar grans
quantitats de textos sinó:
• Enriquir-los anotant característiques lingüístiques dels mots i
les frases (corpus anotats) amb procediments automàtics
(taggers i parsers).
• Crear interfícies per explotar-los (cercar mots, expressions,
estructures, etc.) i així poder centrar l’observació humana en
aspectes concrets.
• Crear algoritmes que recopilen característiques de grans
quantitats de textos i aprenen sobre les característiques de
les llengües (aprenentatge automàtic, no humà).
11
Tema 6
6.2 Criteris per al disseny de corpus

Criteris
a) Llengua
b) Mitjà
c) Dialecte
d) Temàtica
e) Varietats
f) Nivell d’anotació
g) Volum
h) Dates
2
Criteris
a) Llengua: monolingüe / multilingüe
• Els corpus de més d’una llengua també s’anomenen corpus
paral·lels.
• Són útils per a la comparació de llengües i la traducció.
• A vegades estan indexats textos sencers traduïts o i d’altres
cada part del text traduïda en les dues llengües (paràgrafs,
frases, mots...).
P.e.:
http://linguee.es  Multilingüe (moltes parelles de
llengües). Indexació per frases. Conté a més un diccionari
bilingüe.
http://grial.edu.es/sensem/cpg --> Corpus paral·lel anglès-
castellà-català. Àmbit informática. Indexació per frases.
Pràctica: cercar el mot software en la part anglesa.
3
Criteris
b) Mitjà: oral / escrit
• La gran majoria dels corpus són escrits, perquè el cost de creació

és molt més baix.
• Alguns són mixtos amb menys proporció de textos orals.
• Cal també subespecificar: pel que fa a l’escrit, cal decidir si
incloem diaris, revistes, llibres, correspondència, web, e-mails,
etc.
• Corpus orals: tipologia:
• Orals sonors: Corpus Pressea (es pot escoltar l’àudio un cop feta la
cerca d’un mot) (http://preseea.linguas.net/Corpus.aspx)
• Orals representats per escrit. Tipus:
i. Representacions completes (es representa tot el que es
produeix sonorament)
a. Transcripció fonètica (no sempre es representa la
prosòdia)
b. No transcripció fonètica de sons però sí prosòdia (Corpus
Pressea).
ii. Representacions parcials (reproducció periodística
d’entrevistes on es manipula el text oral). S’usa l’escriptura
estàndard per representar-los sense altra informació. 4
London-Lund corpus
Transcripció amb etiquetació prosòdica
1 1 1 10 1 1 B 11 ((of ^Spanish)) . graph\hology# /

1 1 1 10 1 1 A 11 ^well# . /
1 1 1 10 1 1 A 11 ((if)) did ^y/ou _set _that# - /
1 1 1 10 1 1 B 11 ^well J\oe and _I# /
1 1 1 10 1 1 B 11 ^set it betw\een _us# /
1 1 1 10 1 1 B 11 ^actually Joe set the :p\aper# /
Llegenda:
A i B: participants \ /: senyals tonals
^: accent -: pausa absoluta
(( )): trans. dubtosa #: límit grup tonal 5
Corpus del español (Mark Davies)
https://www.corpusdelespanol.org/hist-gen/
Entrevista
6
Criteris
c) Dialectes
• És especialment important determinar els grans dialectes que
es tindran en compte. P.e., si féssim un corpus de l’anglès, cal
determinar si serà britànic, o també americà i/o australià.
• També cal dissenyar la proporció del corpus que es dedicarà a
cada un dels dialectes escollits, si n’hi ha més d’un. P.e.: Corpus
textual informatitzat de la llengua catalana: http://ctilc.iec.cat/
Nota: Les quantitats del

gràfic i la taula es
refereixen a nombre de
mots.
7
Criteris
d) Temàtica (llenguatges d’especialitat): informàtica /
biologia / literatura...
• Permeten estudiar les característiques de la llengua en una
determinada temàtica.
• Són molt útils per a l’estudi de vocabulari específic de l’àmbit,
neologismes...
• Els corpus literaris poden ser específics d’un gènere o d’un
autor.
e) Varietats: juvenil / infantil / col·loquial...

• Com en el cas dels corpus de temàtica específic, permeten
estudiar característiques de la llengua de grups socials
determinats o de situacions típicament informals.
• P.e.: Corpus Valesco: español coloquial:
http://www.valesco.es/?q=investigacion
8
Criteris
f) Nivell d’anotació:
• No anotat o corpus en brut:
• Els textos són recollits i no són enriquits amb cap informació
lingüística.
• No són gaire útils, especialment en llengües amb molta flexió,
perquè les cerques que permeten a l’usuari
• Anotat: per tal amb informació morfològica o sintàctica o
semàntica...
g) Volum (nombre de paraules):
• Els corpus de referència tenen desenes i centenes de milions
de mots.
• Els corpus d’especialitat poden ser de centenes de milers.
• Si no són corpus d’especialitat ni corpus de referència el
mínim esperable és el milió de mots.
9
Criteris
h) Dates:
• Sincrònic: el corpus inclou textos d’una època concreta,
normalment, “actuals” (2a meitat del segle XX o segle XXI). P.e.:
COCA (Corpus of contemporary American English) inclou textos
des de 1990 fins a 2019.
• Diacrònic: el corpus inclou textos de diferents èpoques. Cal
determinar en el disseny quines proporcions del corpus es
destinen a cada època. Idealment totes haurien de contenir la
mateixa proporció però és difícil accedir a textos com més
antics siguin. P.e.: CORDE (Corpus diacrónico del español,
http://corpus.rae.es/cordenet.html): inclou textos des del segle
XII fins al 1974.
• Semisincrònic: el corpus inclou textos actuals i una proporció
d’unes dècades anteriors. P.e.: el Corpus textual informatitzat
de la llengua catalana inclou textos des de 1833 a 2003.
10
Característiques dels corpus - Objectiu
• El corpus que es creen tenen unes característiques
o unes altres segons l’objectiu que es tingui:
• Volem reflectir un tipus de llenguatge específic (p.e.

Informàtica):
• Sols textos d’aquesta temàtica, però de tipologies diferents
(manuals d’instruccions, manuals docents, articles científics,
instruccions de programari...).
• Textos escrits normalment
• Volum petit normalment
• Nivell d’anotació: pot variar, però normalment nivell
morfològic.
• Sincrònic.
11
Característiques dels corpus - Objectiu
• El corpus que es creen tenen unes característiques o unes
altres segons l’objectiu que es tingui:
• Volem reflectir la llengua en general o fer un corpus de referència:

• Temàtiques molt variades de la llengua
• Escrits i orals (els orals solen ser entrevistes).
• Sol usar-se la varietat estàndard (no s’inclouen argots ni tipus de textos
representant dialectes socials de baixa formalitat).
• Dialectes:
• Un corpus de referència ha d’incloure necessàriament diferents dialectes
geogràfics en contextos formals o neutres. P.e.: CREA (Corpus de Referencia del
Español Actual): España i tots els altres països de parla hispana (Amèrica,
Guinea Ecuatorial i Filipines): http://corpus.rae.es/creanet.html
• En els corpus no de referencia, es poden incloure sols un tipus de bloc
dialectal. P.e.: British Nacional Corpus: https://www.english-corpora.org/bnc/
• Volum més gran (si és de referència, molt gran)
• Nivell d’anotació: pot variar (en el de referència, típicament nivell
morfològic).
• Dates: els corpus de referència són sincrònics.
12
Tema 6
6.3 Processament i anotació de corpus

Anotació de corpus
• Quan un corpus s’anota deixa de ser un corpus en
brut.
• L’anotació és l'enriquiment dels textos amb

marques informatives (etiquetes).
• El tipus d’informació que proporcionen és variat:

des de l’estructura del document a informació
sobre cada mot.
2
Anotació de corpus
• Els corpus sense anotar contenen
únicament els textos.
• Els corpus anotats disposen d’informació

addicional de gran utilitat.
• Etiquetes:
• La majoria de les etiquetes tenen un inici i un final.
• Van emmarcades amb parèntesis angulars.
• La final conté el mateix mot que la inicial però inclou
un / abans.
• P. e.: <etiqueta> text </etiqueta>
3
Corpus sense anotar
Los ácidos carboxílicos
1- Marco teórico
Los compuestos que contienen al grupo carboxilo son ácidos y
se llaman ácidos carboxílicos.
Los ácidos carboxílicos se clasifican de acuerdo con el

sustituyente unido al grupo carboxilo. Un ácido alifático
tiene un grupo alquilo unido al grupo carboxilo, mientras
que un ácido aromático tiene un grupo arilo.
4
Corpus anotat (exemple d’anotació primària)
<titulo> Los ácidos carboxílicos </titulo>

<sección>1- Marco teórico </sección>
Los compuestos que contienen al grupo carboxilo
son ácidos y se llaman ácidos carboxílicos.
<fr>Los ácidos carboxílicos se clasifican de acuerdo con el
sustituyente unido al grupo carboxilo.</fr><fr> Un ácido
alifático tiene un grupo alquilo unido al grupo carboxilo,
mientras que un ácido aromático tiene un grupo
arilo.<fr>
5
Com es du a terme l’anotació de corpus?
- Manualment
- Automàticament Tractament Tractament
de tots els adequat dels
casos casos considerats
Tècnica Rapidesa Cobertura Precisió Consistència

Manual - + + -?
Automàtica + - - +
Tractament
igualat –mateix
Tècnica semiautomática: criteri- dels casos
considerats
- Postedició manual
- Sistema interactiu
Criteris estàndars en anotació de
corpus
Un cop inserides les etiquetes als corpus
ha de ser possible poder eliminar-les i
així poder separar:
• el corpus sense anotar
• les anotacions
Aquestes marques/etiquetes no són
visibles directament al text per a l’usuari
des d’una interfície.
7
Criteris estàndars en anotació de
corpus
• A l’hora d’anotar i usar les diferents etiquetes per
marcar el text cal consensuar les etiquetes i com
usar-les creant unes pautes (uns criteris).
• Aquests criteris s’han de publicar perquè siguin
consultables si és necessari.
• És preferible utilitzar marques estàndards
(etiquetes ja consensuades per la comunitat)
sempre que es pugui. Això permet compartir
recursos.
• Les etiquetes proposades i usades han de ser al
més independents d’una teoria concreta.
8
Llenguatge d’anotació
• Exemple de l’establiment de pautes:
Corpus Encoding Standard
http://www.cs.vassar.edu/CES/
Standard Generalized Markup Language (SGML)
9
SGML
• SGML reference concrete syntax
• Defineix la forma de les etiquetes i atributs
• SGML Document Type Definition (DTD)

• mecanismes per a definir el noms dels tags i models de
document.
10
Anotació
• Tipus d’informació:
- Documentació
- Primària
- Lingüística
11
Tipus d’anotació: Documentació
• Informació general de l’anotació i de cada
document:
• Documentació de les entitats.

• Descripció de la convenció de codificació.
• Descripció bàsica del document: tema, mitjà, dialecte,
descripció bibliogràfica...:
<tema> química</tema>
<lengua>esppeninsular </lengua>
<autor> G.López </autor>
<año> 2000</año>
12
Tipus d’anotació: Primària
• Informació estructural:
• Estructura de paràgrafs, seccions i subseccions.

• Límits d’oracions.
• Límits d’expressions multiparaules.
• Elements que no es tindran en compte en l’anotació
lingüística:
• Que formen part de les oracions: dates, noms propis, xifres,
abreviatures, etc.
• Elements aïllats del text: imatge, gràfics, taules, etc.
13
p= paràgraf num= xifra
fr= frase spg=guió
mw= multiword (multiparaula)
<sección> <num>1</num> <spg>- </spg> Marco teórico

</sección>
<fr>Los compuestos que contienen al grupo carboxilo

son ácidos y se llaman <mw> ácidos carboxílicos
</mw>.</fr>
<fr>Los <mw>ácidos carboxílicos</mw> se clasifican de

acuerdo con el sustituyente unido al grupo
carboxilo.</fr><fr> Un <mw>ácido alifático</mw> tiene un
grupo alquilo unido al grupo carboxilo, mientras que un
<mw>ácido aromático</mw> tiene un grupo arilo.</fr>
14
Tipus d’anotació: Lingüística
• Informació morfològica
• Informació sintàctica
• Informació semàntica
• Prosòdia
15
Anotació morfològica
- Límits de cada unitat lèxica

- Lema associat a cada unitat lèxica
- Categoria morfosintàctica associada a cada unitat
lèxica (N, ADJ...)
- Trets morfosintàctics segons cada categoria (per
als verbs: persona, nombre, mode, temps)
16
Anotació morfològica
lex= peça lèxica incloent totes les etiquetes que la defineixen
f= limita la peça lèxica estrictament, sense etiquetes
<seccion><num>1</num> <spg>-</spg>
<lex><f>Marco </f><lema=marco><cat=nc_m_sg></lex>
<lex><f>teórico </f>><lema=teórico><cat=adj_m_sg></lex></seccion>
<fr>
<lex><f>Los</f>><lema=el><cat=det_m_pl></lex>
<lex><f>compuestos</f><lema=compuesto><cat=nc_m_pl></lex>
<lex> <f> que</f> <lema=que><cat=pr_rel></lex>
<lex><f>contienen</f><lema=contener><cat=v_3_sg_pr_ind> </lex>
...
<lex><f>ácidos</f><lema=ácido><cat=nc_m_pl><f>carboxílicos<lema=carboxílico>
<cat=adj_m_pl></lex>
</fr>
17
Corpus anotats morfològicament en lína
• Català: Corpus textual informatitzat de la llengua catalana (CTILC):
https://ctilc.iec.cat/scripts/
• Castellà:
- Corpus del español (Mark Davies):
- Diacrònic: https://www.corpusdelespanol.org/hist-gen/
- Sincrònic:
- Dialectal: https://www.corpusdelespanol.org/web-dial/
- Periodístic (NOW): https://www.corpusdelespanol.org/now/
- Corpus de la RAE:
- CREA: http://web.frl.es/CREA
- CorpEs XXI: http://web.frl.es/CORPES
• Anglès  interfície Mark Davies:

• Corpus of Contemporary American English (COCA): https://www.english-
corpora.org/coca/
• Corpus of British National Corpus (BNC): https://www.english-
corpora.org/bnc/
• Altres: https://www.english-corpora.org/corpora.asp
18
Mark Davies
• Investigador de la Brigham Young University (BYU), als EUA.
• Ha creat alguns corpus i d’altres els ha recuperat d’altres
institucions.
• Bàsicament treballa amb l’espanyol i l’anglès.
• Avantatge: per a tots ells usa una interfície única molt
potent i robusta.
• Doneu-vos-hi d’alta per tenir un millor accés. Si us registreu
un cop, tindreu accés a tots els corpus del seu llistat.:
https://corpus.byu.edu/overview.asp (My account /
Register)
• Si useu els corpus un cop registrats i a més useu el Proxy us
identificarà com a usuaris de la UdL (on paguem una quota
per un accés no restringit) i n’obtindreu majors beneficis.
19
Anotació sintàctica
- Anàlisi parcial: sols es fa l’anàlisi per sintagmes i algunes
dependències.
- Anàlisi total: es fa l’anàlisi de tota la frase indicant totes les

dependències.
• Els corpus anotats sintàcticament amb anàlisi arbòria

s’anomenen tree banks.
• Les funcions sintàctiques no sempre es detecten. En anglès
és més fàcil ja que l’ordre és més fix.
20
Anotació sintàctica parcial
“Ellos han anulado las reservas de avión”
{
{ { Ellos_ppmp0 }_grup-nom3p}_sn
{ han_vaip3p0 anulado_vmpp0sm }_grup-verb3p
{ las_tdfp0 { reservas_ncfp000 }_grup-nom3p }_sn
{ de_sps00 { avión_ncms000 }_grup-nom3s }_sp
}_frase
Sols s’identifiquen els sintagmes i no com es relacionen entre ells: no hi ha

jerarquia de sintagmes: no hi ha sintagmes dins de sintagmes i el verb està sol.
La frase es tanca sense establir un subjecte i un predicat.
21
Anotació sintàctica total
“Jones followed him into the front room, closing the door behind
him”
( (S (NP-SBJ-1 Jones)
Sí s’estableixen relacions
(VP followed entre els sintagmes i amb el
(NP him) verb (sintagmes dins de
sintagmes)
(PP-DIR into En la frase (S) s’identifica el
(NP the front room) ) ) subjecte (SBJ), fins i tot de la
subordinada.
,
(S-ADV (NP-SBJ *-1)
(VP closing
(NP the door)
(PP behind
NP him) ) ) )
22
.)
Anotació semàntica
• Nivell lèxic
• Desambiguació de sentits (WSD: Word sense disambiguation)
• Nivell oracional
• Assignació de funcions semàntiques
• Nivell discursiu
• Resolució de las referències discursives
• Resolució de l’el·lipsi
Anotació semàntica: nivell lèxic
Desambiguació de sentits dels mots (noms, adjectius,

verbs):
• Problemàtica:
• Delimitar els “sentits” és una tasca problemàtica (no tots els
diccionaris coincideixen).
• La gran majoria de mots d’una llengua són polisèmics.
• Estàndards usats: WordNet i EuroWordnet (números

identificadors del synset)
• Grau d’automatització alt: 70-90% precisió

Exemple d’etiquetació amb EuroWordNet
(identificadors del synset)
Han vaip3p0
anulado vmpp0sm 00266871v
las tdfp0
reservas ncfp000 00670500n
de sps00
avión ncms000 02054514n
- anular: 10 sentits (destruir, revocar, borrar, interrumpir, etc.)

- reserva: 10 sentits (sentimiento, jugador extra, reserva natural, etc.)
- avión: 2 sentits (artefacto que vuela, pájaro)
Procediments per a la desambiguació a partir del
context:
1. Paraules de l’entorn:
• Del text:
gato - maullar, arañar, ratón
• De la frase:
gato  animal (no aparell)
Han matado el gato
• Del sintagma (col·locacions):
gato pardo
2. Domini al qual està adscrit el text

Text sobre mecànica: gato  aparell (no animal)
• Problemes afegits:
 No previsió en el lèxic:
• Terminologia específica Lèxics especialitzats

• Noms propis
• Usos metafòrics i metonímics

• Creació de nous sentits
Anotació semàntica: nivell oracional
• Funciones semàntiques
• Grau d’automatització nul
• FrameNet
• C. J. Fillmore, University of California, 2000
• PropBank
• M. Palmer y M. Marcus, University of Pennsylvania, 2002
Precisión: 80% (manual)

Exemple de FrameNet
Àmbit: escena (frame) de comunicació
[She (Speaker, NP, Ext)] never spoke [about her

feelings (Topic, PPabout, Comp)]
[Managers (Speaker, NP, Ext)] claim [there was no

radiological hazzar to staff or the public (Message,
Sfin, Comp)]
Blau: sintagmes definits amb etiquetes

Negre i negreta: verb
Roig: rols semàntics
Verd: sintagmes i funcions
Exemple de PropBank
New England Electric will acquire PS of New Hampshire

Arg0: New England Electric
REL: acquire
Arg1: PS of New Hampshire
Its Moleculon affiliate acquired Kalipharma Inc for $23 M

Arg0: New England Electric REL: acquire
REL: acquire Arg0: agent Arg3: price

Arg1: thing acquired
Arg1: PS of New Hampshire
Arg2: seller Arg4: benef
Arg3-for: for $23M
Anotació semàntica: nivell discursiu
• Detecció de la identitat d’entitats dins un mateix text
(referències discursives):
• Anàfora
• Catàfora
• El·lipsi
• Noms propis abreujats ...
• Grau d’automatització mitjà

Exemple de corpus de la Univ.
Lancaster (UCREL)
(1 Feodor Baumenks 1), a former Nazi death camp
guard, has asked the U.S. Supreme Court to allow
<REF=1 him to retain <REF=1 his American
citinzenship, (2 the Hartford Courant 2) reported
Monday. (2 The Newspaper 2) said (1 Federenko 1),
72, is appealing a ruling handed down.
- Blau: entitats
- Els números indiquen connexions referencials entre aquestes entitats
(elements que es refereixen a la mateixa entitat).
- 2 tipus de números:
- Roig: SN: entre parèntesis
- Verd: pronoms: precedits de REF=número, que codifica el referent. El
signe < o > senyala si el referent s’ha de buscar abans (anàfora) o
després (catàfora). En l’exemple sols hi ha casos d’anàfora.
• Resolució de l’anàfora: elecció d’antecedent
• Nivell morfològic
• Concordança de gènere, número i persona
Luis compró varios libros y los llevó a su hermana
• Nivell sintàctic:
• Restriccions de domini: el subjecte del verb aburrir no pot ser l’objecte
Juan le aburre
• Nivell semàntic
• Restriccions de selecció: el verb guardar requereix un objecte no humà
Ana encontró una moneda y la guardó en el cajón
• Nivell pragmàtic: un acusat no acusa ni defensa el jutge

• El acusado juró ante el juez que él no había sido.
Tema 6
6.4 Consultes al corpus. Conceptes bàsics

Conceptes bàsics
Lema
Referencia la unitat lèxica (infinitiu en els verbs, masculí
singular en els adjectius...).
Es pot realitzar amb més d’una forma.
Forma
Realització d’un lema en paraules concretes.
Pot ocórrer més d’una vegada en un text.
Ocurrència
Cada una de les aparicions d’una paraula o forma.
2
La Júlia ahir anava cap a casa i mentre corria va veure
unes cases estranyes i se li va posar la pell de gallina.
Corre, corre Júlia, li deia el seu cap, corre cap a casa.
2 ocurrències de la forma ‘casa’

1 ocurrència de la forma ‘cases’
2 formes corresponents al lema ‘CASA’
3
La Julia ahir anava cap a casa i mentre corria va veure
Corre, corre Julia, li deia el seu cap, corre cap a casa.
3 ocurrències de la forma ‘corre’

1 ocurrència de la forma ‘corria’
4 formes del lema ‘CÓRRER’
4
Conceptes bàsics
Homònims
Una forma pot correspondre’s, aïllada, a
diferents lemes.
La Júlia ahir anava cap a casa i mentre corria va veure

Corre, corre Júlia, li deia el seu cap, corre cap a casa.
Homònims
3 formes de ‘cap’ corresponents a 2 lemes

5
Conceptes bàsics
Expressions multiparaula
Grup de paraules que determina una unitat conceptual i
referencial.
Tipus:
- No compositives (la suma del significat de cada mot
aïllat NO es correspon amb el significat de tota l’expressió):
frases fetes, locucions
ull de poll, donar la llauna, a canvi de, pell de gallina
- Compositives (la suma del significat de cada mot
aïllat SÍ es correspon amb el significat de tota l’expressió):
col·locacions
camp de futbol, canya de pescar
6
• La Júlia ahir anava cap a casa i mentre corria va
veure unes cases estranyes i se li va posar la pell
de gallina. Corre, corre Júlia, li deia el seu cap,
corre cap a casa.
Expressions multiparaula
preposicions compostes
locució nominal
7
Cerques als corpus
Lexicometria o estadística textual:
• A partir d’un conjunt de textos digitalitzats (corpus)

podem obtener dades quantitatives sobre els
diferents mots (formes o lemes) o combinacions de
mots com:
• Distribució
• Freqüència relativa
• Freqüència absoluta
• Informació mútua
8
Cerques als corpus
• Quan es fa una cerca d’un mot o seqüència en un corpus

s’obté també un llistat dels contextos on apareixen en un
format anomenat concordança o kwic (keyword in
context).
• És un format estàndard que permet visualitzar els

diferents exemples d’una forma pràctica:
 Es presenta una línia del text amb un nombre determinat de mots.
 El mot cercat se situa al mig de la línia normalment centrat i ressaltat.
 Normalment es pot accedir a més context (p.e. tot el paràgraf).
 Es presenta un llistat de concordances una darrera l’altra. A vegades
s’estableix un límit (p.e. 100) si el corpus és molt gran.
9
Cerques als corpus
• Consulteu la informació de Recursos disponible a

l’espai del Campus virtual en html sobre aquest
apartat on se us explicaran conceptes i aspectes
importants.
• També és important que useu els diferents corpus
que us presentem a continuació per familiaritzar-vos-
hi fent cerques en mode de pràctica.
• És molt important que entengueu tots aquests
conceptes i sapigueu usar una interfície de corpus
per fer cerques per assolir els continguts d’aquest
tema.
10
Interfícies de corpus importants
• Espanyol:
• Corpus de Mark Davies: http://corpusdelespanol.org
• Corpus de la RAE: https://www.rae.es/recursos/banco-de-datos
• Català:
• Corpus de l’IEC: https://ctilc.iec.cat/scripts/
• Anglès:
• British National Corpus
• Contemporary Corpus of American English
• ...
 Mark Davies els ha recopilat i ha creat una interfície per usar-los de forma més eficient:
https://www.english-corpora.org/
• Corpus de l’IULA (Institut Universitari de Lingüística Aplicada – U.

Pompeu Fabra): anglès-català-castellà:
https://www.upf.edu/web/iula/corpus-eines
11
Eines de tractament de corpus
• Hi ha programari per tractar textos propis (no corpus ja creats)
• Us pot ser útil en un futur per fer treballs de diferents assignatures (p.e.
analitzar una obra literària o un autor, o un tipus de discurs) i/o per al
Treball de Fi de Grau.
• La informació actualitzada la trobareu a Internet; els enllaços següents
poden canviar.
 Informació útil: https://corpus-analysis.com/tag/concordancer#list
• Lliure distribució:
• Antconc: https://www.laurenceanthony.net/software.html
• Wordcruncher: https://wordcruncher-ios.soft112.com/
• SCP: http://www.textworld.com/scp/
• Corpkit: https://interrogator.github.io/corpkit/
• Versions demo:
• MonoConc Pro: http://www.athel.com/mono.html
• Versions en línia (via web):

• Lextutor: https://www.lextutor.ca/conc/ 12
• Concordancer at spaceless: http://www.spaceless.com/concordancer.php
Tema 6
6.5 Camps d'aplicació de la lingüística de
corpus

Camps d’aplicació
1.Estudis filològics:
• Corpus diacrònics:
• Lingüística històrica: estudi de l’evolució de la llengua amb la
consulta de corpus diacrònics o semisincrònics (CorDE, CTILC)
• Edicions crítiques: la consulta d’aquests corpus permet explicar la
forma i significat d’algunes formes d’algunes obres.
http://www.ruf.rice.edu/~barlow/corpus.html
• Corpus literaris:
• Estil (gèneres i autors) – estilometria: comparació de les obres del
mateix autor o de diferents autors del mateix gènere.
• Establiment d’autor (obres anònimes): comparació del tipus de
vocabulari o expressions entre l’obra anònima i altres amb autoria
• http://www.dundee.ac.uk/english/wics/newwics.htm: poemes en anglès; ja

estan extretes les concordances i estan accessibles via web
• http://www.admyte.com: Archivo Digital de Manuscritos y Textos Españoles 
són textos medievals
2
2.Lingüística sincrònica: millora de la descripció d’una llengua
basada en la inducció del comportament segons les mostres
dels corpus (quantitats ingents de textos “reals”):
• Gramàtica:
• Règim verbal
• Perífrasis
• Determinació
• Construccions verbals, etc.
• Morfologia:
• Derivació
• Nous termes
• Compostos, etc.
• Fonètica:
• Articulatòria i acústica
• Segmental i suprasegmental 3
• Sociolingüística:
• Registres
• Argots
• Canvis de codi
• Psicolingüística:
• Adquisició de llengües (errors, llenguatge infantil)
• Aprenentatge de segones llengües
• Mecanismes cognitius de l’escriptura
• Patologies de la parla
• Dialectologia
• Anàlisi del discurs 4

3.Lexicografia: extracció dels corpus d’informació
cabdal en l’elaboració de diccionaris:
nExemples nEstabliment de sentits

nCol·locacions nRègims
nPreposicions nFreqüències
nRegistres nTerminologia i neologismes
5
Tipus de diccionaris que es poden millorar amb l’ús de la metodologia de corpus:
• Obres de referència (diccionaris generals)

• Anglès: Cobuild dictionary: primer diccionari creat a partir de dades de
corpus (https://www.collinsdictionary.com/es/diccionario/ingles)
• Diccionaris d’altres llengües creats amb aquesta metodología:
• Espanyol: Diccionario Clave:
http://clave.smdiccionarios.com/app.php
• Català: Diccionari descriptiu de la llengua
catalana:https://dcc.iec.cat/ddlc/index.asp
• Diccionaris terminològics
• Diccionaris de règim verbal
• Diccionaris de col·locacions
• Diccionaris etimològics (amb l’ús de corpus diacrònics)
6
4.Processament de Llenguatge Natural
(Aspectes tractats al tema 4)
• Banc de proves de recursos de PLN

• Traducció automàtica (corpus paral·lels)
• Aprenentatge estadístic (codificació manual)
• Inducció de gramàtiques
• Gramàtiques probabilístiques
• Lexicons
• Desambiguació semàntica
7
• Tecnologies de la parla: construcció de diccionaris de
síntesi i reconeixement, per a l’ús en aplicacions com les
següents:
• Conversió de text a parla
• Dictat automàtic
• Identificació del parlant
5. Aprenentatge de segones llengües: confecció de

material didàctic més adient amb la llengua “real”:
• Potenciació del vocabulari “real”
• Potenciació dels fenòmens gramaticals “reals”

La Linguistica de Corpus

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

La Linguistica de Corpus

Uploaded by

Copyright:

Available Formats

Tema 6

Eines informàtiques i aplicacions lingüístiques

• Els enunciats d’una llengua són infinits.

La competència lingüística i la introspecció

Paper crucial de la tecnologia:

El desenvolupament tecnològic permet la creació de corpus

(Sinclair, 1996)  Pare de la lingüística de corpus

• Col·leccions de textos, primordialment.

Com es crea un corpus

• Són corpus molt extensos (es recopilen molts textos i el

• Els textos són molt variats quant a temàtica (esports,

• La llengua usada és l’estàndard.

• Són elaborats per institucions de referència, com

• El coneixement lingüístic que se n’infereixi és

• Els resultats obtinguts permeten fer comparacions amb

• Solen ser de lliure distribució, perquè majoritàriament

Eines informàtiques i aplicacions lingüístiques

• La gran majoria dels corpus són escrits, perquè el cost de creació

1 1 1 10 1 1 B 11 ((of ^Spanish)) . graph\hology# /

Nota: Les quantitats del

e) Varietats: juvenil / infantil / col·loquial...

• Volem reflectir un tipus de llenguatge específic (p.e.

• Volem reflectir la llengua en general o fer un corpus de referència:

Eines informàtiques i aplicacions lingüístiques

• L’anotació és l'enriquiment dels textos amb

• El tipus d’informació que proporcionen és variat:

• Els corpus anotats disposen d’informació

Los ácidos carboxílicos se clasifican de acuerdo con el

<titulo> Los ácidos carboxílicos </titulo>

Tècnica Rapidesa Cobertura Precisió Consistència

Corpus Encoding Standard

Standard Generalized Markup Language (SGML)

• SGML Document Type Definition (DTD)

• Documentació de les entitats.

• Estructura de paràgrafs, seccions i subseccions.

<sección> <num>1</num> <spg>- </spg> Marco teórico

<p><fr>Los compuestos que contienen al grupo carboxilo

<p><fr>Los <mw>ácidos carboxílicos</mw> se clasifican de

- Límits de cada unitat lèxica

• Anglès  interfície Mark Davies:

- Anàlisi total: es fa l’anàlisi de tota la frase indicant totes les

• Els corpus anotats sintàcticament amb anàlisi arbòria

“Ellos han anulado las reservas de avión”

Sols s’identifiquen els sintagmes i no com es relacionen entre ells: no hi ha

Desambiguació de sentits dels mots (noms, adjectius,

• Estàndards usats: WordNet i EuroWordnet (números

• Grau d’automatització alt: 70-90% precisió

- anular: 10 sentits (destruir, revocar, borrar, interrumpir, etc.)

2. Domini al qual està adscrit el text

• Terminologia específica Lèxics especialitzats

• Usos metafòrics i metonímics

• Grau d’automatització nul

Precisión: 80% (manual)

[She (Speaker, NP, Ext)] never spoke [about her

[Managers (Speaker, NP, Ext)] claim [there was no

Blau: sintagmes definits amb etiquetes

New England Electric will acquire PS of New Hampshire

Its Moleculon affiliate acquired Kalipharma Inc for $23 M

REL: acquire Arg0: agent Arg3: price

• Grau d’automatització mitjà

• Nivell pragmàtic: un acusat no acusa ni defensa el jutge

Eines informàtiques i aplicacions lingüístiques

2 ocurrències de la forma ‘casa’