Professional Documents
Culture Documents
La Linguistica de Corpus
La Linguistica de Corpus
La lingüística corpus
6.1 Naixement de la lingüística de corpus
2
Però...
3
El model empiricista
• Les oracions d’una llengua natural són
potencialment infinites, però se’n pot
recopilar mostres de l'experiència lingüística
(corpus).
• El coneixement lingüístic es pot inferir a
partir de l’experiència (corpus textuals) i es
pot extrapolar fins a cert punt a partir de la
generalització.
4
ANYS 90 Naixement de la disciplina:
Lingüística de corpus
5
Què és un corpus
Un corpus és una col·lecció d’elements lingüístics
seleccionats i ordenats d’acord amb criteris
lingüístics explícits i amb la finalitat de ser usat com
a mostra de la llengua.
6
Caracterítsiques dels corpus
7
Atenció al copyright!!
CORPUS
8
Corpus de referència
11
Tema 6
La lingüística corpus
6.2 Criteris per al disseny de corpus
2
Criteris
a) Llengua: monolingüe / multilingüe
• Els corpus de més d’una llengua també s’anomenen corpus
paral·lels.
• Són útils per a la comparació de llengües i la traducció.
• A vegades estan indexats textos sencers traduïts o i d’altres
cada part del text traduïda en les dues llengües (paràgrafs,
frases, mots...).
P.e.:
http://linguee.es Multilingüe (moltes parelles de
llengües). Indexació per frases. Conté a més un diccionari
bilingüe.
http://grial.edu.es/sensem/cpg --> Corpus paral·lel anglès-
castellà-català. Àmbit informática. Indexació per frases.
Pràctica: cercar el mot software en la part anglesa.
3
Criteris
b) Mitjà: oral / escrit
Llegenda:
A i B: participants \ /: senyals tonals
^: accent -: pausa absoluta
(( )): trans. dubtosa #: límit grup tonal 5
Corpus del español (Mark Davies)
https://www.corpusdelespanol.org/hist-gen/
Entrevista
6
Criteris
c) Dialectes
• És especialment important determinar els grans dialectes que
es tindran en compte. P.e., si féssim un corpus de l’anglès, cal
determinar si serà britànic, o també americà i/o australià.
• També cal dissenyar la proporció del corpus que es dedicarà a
cada un dels dialectes escollits, si n’hi ha més d’un. P.e.: Corpus
textual informatitzat de la llengua catalana: http://ctilc.iec.cat/
7
Criteris
d) Temàtica (llenguatges d’especialitat): informàtica /
biologia / literatura...
• Permeten estudiar les característiques de la llengua en una
determinada temàtica.
• Són molt útils per a l’estudi de vocabulari específic de l’àmbit,
neologismes...
• Els corpus literaris poden ser específics d’un gènere o d’un
autor.
11
Característiques dels corpus - Objectiu
• El corpus que es creen tenen unes característiques o unes
altres segons l’objectiu que es tingui:
12
Tema 6
La lingüística corpus
6.3 Processament i anotació de corpus
2
Anotació de corpus
• Els corpus sense anotar contenen
únicament els textos.
3
Corpus sense anotar
Los ácidos carboxílicos
1- Marco teórico
Los compuestos que contienen al grupo carboxilo son ácidos y
se llaman ácidos carboxílicos.
4
Corpus anotat (exemple d’anotació primària)
5
Com es du a terme l’anotació de corpus?
- Manualment
- Automàticament Tractament Tractament
de tots els adequat dels
casos casos considerats
Automàtica + - - +
Tractament
igualat –mateix
Tècnica semiautomática: criteri- dels casos
considerats
- Postedició manual
- Sistema interactiu
Criteris estàndars en anotació de
corpus
Un cop inserides les etiquetes als corpus
ha de ser possible poder eliminar-les i
així poder separar:
• el corpus sense anotar
• les anotacions
Aquestes marques/etiquetes no són
visibles directament al text per a l’usuari
des d’una interfície.
7
Criteris estàndars en anotació de
corpus
• A l’hora d’anotar i usar les diferents etiquetes per
marcar el text cal consensuar les etiquetes i com
usar-les creant unes pautes (uns criteris).
• Aquests criteris s’han de publicar perquè siguin
consultables si és necessari.
• És preferible utilitzar marques estàndards
(etiquetes ja consensuades per la comunitat)
sempre que es pugui. Això permet compartir
recursos.
• Les etiquetes proposades i usades han de ser al
més independents d’una teoria concreta.
8
Llenguatge d’anotació
• Exemple de l’establiment de pautes:
http://www.cs.vassar.edu/CES/
9
SGML
• SGML reference concrete syntax
• Defineix la forma de les etiquetes i atributs
10
Anotació
• Tipus d’informació:
- Documentació
- Primària
- Lingüística
11
Tipus d’anotació: Documentació
• Informació general de l’anotació i de cada
document:
12
Tipus d’anotació: Primària
• Informació estructural:
13
p= paràgraf num= xifra
fr= frase spg=guió
mw= multiword (multiparaula)
14
Tipus d’anotació: Lingüística
• Informació morfològica
• Informació sintàctica
• Informació semàntica
• Prosòdia
15
Anotació morfològica
16
Anotació morfològica
lex= peça lèxica incloent totes les etiquetes que la defineixen
f= limita la peça lèxica estrictament, sense etiquetes
<seccion><num>1</num> <spg>-</spg>
<lex><f>Marco </f><lema=marco><cat=nc_m_sg></lex>
<lex><f>teórico </f>><lema=teórico><cat=adj_m_sg></lex></seccion>
<p><fr>
<lex><f>Los</f>><lema=el><cat=det_m_pl></lex>
<lex><f>compuestos</f><lema=compuesto><cat=nc_m_pl></lex>
<lex> <f> que</f> <lema=que><cat=pr_rel></lex>
<lex><f>contienen</f><lema=contener><cat=v_3_sg_pr_ind> </lex>
...
<lex><f>ácidos</f><lema=ácido><cat=nc_m_pl><f>carboxílicos<lema=carboxílico>
<cat=adj_m_pl></lex>
</fr></p>
17
Corpus anotats morfològicament en lína
• Català: Corpus textual informatitzat de la llengua catalana (CTILC):
https://ctilc.iec.cat/scripts/
• Castellà:
- Corpus del español (Mark Davies):
- Diacrònic: https://www.corpusdelespanol.org/hist-gen/
- Sincrònic:
- Dialectal: https://www.corpusdelespanol.org/web-dial/
- Periodístic (NOW): https://www.corpusdelespanol.org/now/
- Corpus de la RAE:
- CREA: http://web.frl.es/CREA
- CorpEs XXI: http://web.frl.es/CORPES
20
Anotació sintàctica parcial
{
{ { Ellos_ppmp0 }_grup-nom3p}_sn
{ han_vaip3p0 anulado_vmpp0sm }_grup-verb3p
{ las_tdfp0 { reservas_ncfp000 }_grup-nom3p }_sn
{ de_sps00 { avión_ncms000 }_grup-nom3s }_sp
}_frase
( (S (NP-SBJ-1 Jones)
Sí s’estableixen relacions
(VP followed entre els sintagmes i amb el
(NP him) verb (sintagmes dins de
sintagmes)
(PP-DIR into En la frase (S) s’identifica el
(NP the front room) ) ) subjecte (SBJ), fins i tot de la
subordinada.
,
(S-ADV (NP-SBJ *-1)
(VP closing
(NP the door)
(PP behind
NP him) ) ) )
22
.)
Anotació semàntica
• Nivell lèxic
• Desambiguació de sentits (WSD: Word sense disambiguation)
• Nivell oracional
• Assignació de funcions semàntiques
• Nivell discursiu
• Resolució de las referències discursives
• Resolució de l’el·lipsi
Anotació semàntica: nivell lèxic
• Problemàtica:
• Delimitar els “sentits” és una tasca problemàtica (no tots els
diccionaris coincideixen).
• La gran majoria de mots d’una llengua són polisèmics.
• FrameNet
• C. J. Fillmore, University of California, 2000
• PropBank
• M. Palmer y M. Marcus, University of Pennsylvania, 2002
- Blau: entitats
- Els números indiquen connexions referencials entre aquestes entitats
(elements que es refereixen a la mateixa entitat).
- 2 tipus de números:
- Roig: SN: entre parèntesis
- Verd: pronoms: precedits de REF=número, que codifica el referent. El
signe < o > senyala si el referent s’ha de buscar abans (anàfora) o
després (catàfora). En l’exemple sols hi ha casos d’anàfora.
• Resolució de l’anàfora: elecció d’antecedent
• Nivell morfològic
• Concordança de gènere, número i persona
Luis compró varios libros y los llevó a su hermana
• Nivell sintàctic:
• Restriccions de domini: el subjecte del verb aburrir no pot ser l’objecte
Juan le aburre
• Nivell semàntic
• Restriccions de selecció: el verb guardar requereix un objecte no humà
Ana encontró una moneda y la guardó en el cajón
Forma
Realització d’un lema en paraules concretes.
Pot ocórrer més d’una vegada en un text.
Ocurrència
Cada una de les aparicions d’una paraula o forma.
2
La Júlia ahir anava cap a casa i mentre corria va veure
unes cases estranyes i se li va posar la pell de gallina.
Corre, corre Júlia, li deia el seu cap, corre cap a casa.
3
La Julia ahir anava cap a casa i mentre corria va veure
unes cases estranyes i se li va posar la pell de gallina.
Corre, corre Julia, li deia el seu cap, corre cap a casa.
4
Conceptes bàsics
Homònims
Una forma pot correspondre’s, aïllada, a
diferents lemes.
Homònims
6
• La Júlia ahir anava cap a casa i mentre corria va
veure unes cases estranyes i se li va posar la pell
de gallina. Corre, corre Júlia, li deia el seu cap,
corre cap a casa.
Expressions multiparaula
preposicions compostes
locució nominal
7
Cerques als corpus
8
Cerques als corpus
• Català:
• Corpus de l’IEC: https://ctilc.iec.cat/scripts/
• Anglès:
• British National Corpus
• Contemporary Corpus of American English
• ...
Mark Davies els ha recopilat i ha creat una interfície per usar-los de forma més eficient:
https://www.english-corpora.org/
11
Eines de tractament de corpus
• Hi ha programari per tractar textos propis (no corpus ja creats)
• Us pot ser útil en un futur per fer treballs de diferents assignatures (p.e.
analitzar una obra literària o un autor, o un tipus de discurs) i/o per al
Treball de Fi de Grau.
• La informació actualitzada la trobareu a Internet; els enllaços següents
poden canviar.
• Lliure distribució:
• Antconc: https://www.laurenceanthony.net/software.html
• Wordcruncher: https://wordcruncher-ios.soft112.com/
• SCP: http://www.textworld.com/scp/
• Corpkit: https://interrogator.github.io/corpkit/
• Versions demo:
• MonoConc Pro: http://www.athel.com/mono.html
• Corpus diacrònics:
• Lingüística històrica: estudi de l’evolució de la llengua amb la
consulta de corpus diacrònics o semisincrònics (CorDE, CTILC)
• Edicions crítiques: la consulta d’aquests corpus permet explicar la
forma i significat d’algunes formes d’algunes obres.
http://www.ruf.rice.edu/~barlow/corpus.html
• Corpus literaris:
• Estil (gèneres i autors) – estilometria: comparació de les obres del
mateix autor o de diferents autors del mateix gènere.
• Establiment d’autor (obres anònimes): comparació del tipus de
vocabulari o expressions entre l’obra anònima i altres amb autoria
• Gramàtica:
• Règim verbal
• Perífrasis
• Determinació
• Construccions verbals, etc.
• Morfologia:
• Derivació
• Nous termes
• Compostos, etc.
• Fonètica:
• Articulatòria i acústica
• Segmental i suprasegmental 3
Camps d’aplicació
• Sociolingüística:
• Registres
• Argots
• Canvis de codi
• Psicolingüística:
• Adquisició de llengües (errors, llenguatge infantil)
• Aprenentatge de segones llengües
• Mecanismes cognitius de l’escriptura
• Patologies de la parla
• Dialectologia
5
Camps d’aplicació
Tipus de diccionaris que es poden millorar amb l’ús de la metodologia de corpus:
• Diccionaris terminològics
• Diccionaris de règim verbal
• Diccionaris de col·locacions
• Diccionaris etimològics (amb l’ús de corpus diacrònics)
6
Camps d’aplicació
4.Processament de Llenguatge Natural
(Aspectes tractats al tema 4)
7
Camps d’aplicació
• Tecnologies de la parla: construcció de diccionaris de
síntesi i reconeixement, per a l’ús en aplicacions com les
següents:
• Conversió de text a parla
• Dictat automàtic
• Identificació del parlant