Introduction To Natural Language Processing FdT-Cours1-IntroNLP-FdT

Text Mining
Introduction to Natural Language Processing (NLP)
Thierry Hamon
Institut Galilée - Université Paris 13,Villetaneuse, France

&
LIMSI-CNRS, Orsay, France
hamon@limsi.fr
https://perso.limsi.fr/hamon/Teaching/P13/FDT-2018-2019/
January-March 2019
Université Paris 13 - M2EIDD
1/115
Ma recherche
Domaine : Traitement Automatique des Langues
appliqué aux domaines de spécialité (électricité, médecine,
risque chimique, etc.)
sur des textes en français, anglais, ukrainien, arabe
Proposition d’approches pour
Constitution et enrichissement de ressources terminologiques
Articulation d’outils de TAL
Extraction et recherche d’information
Type de données textuelles : bases bibliographiques,
documents techniques, dossiers patients, articles scientifiques,
forums de discussion, etc.
Développement d’outils en Perl (modules CPAN)
2/115
Ma recherche
Constitution et enrichissement de ressources terminologiques
Exploration de corpus textuels
Extraction de termes : YATEA
[Aubin et Hamon 2006, Hamon et al. 2014, Neifar et al. 2016,
Hamon et Grabar 2016]
Acquisition de relations sémantiques : SynoTerm
[Hamon 2000, Grabar et al. 2008, Hamon et Grabar 2009]
Application : Identification automatique de mots-clés d’articles
[Hamon 2012, Hamon 2016]
Articulation d’outils de TAL [Hamon et al. 2007]

Définition d’une plate-forme modulaire combinant des outils
de TAL pour annoter des documents avec des informations
linguistiques
3/115
Ma recherche
Extraction et recherche d’information
Fouille de dossiers patients (en anglais) :
Identification des maladies, des médicaments et des traitements
mais aussi des relations entre eux et de leur niveau de certitude
[Grabar et Hamon 2009, Hamon et al. 2010, Périnet et al. 2011]
Fouille de données bibliographiques :
Collecte des facteurs de risque associés aux maladies
[Hamon et al. 2010]
Collecte ciblée de documents sur le Web [Gollub et al. 2007]
Intégration d’informations linguistiques dans le moteur de
recherche de l’intranet [Grabar et al. 2009]
Fouille de forums de discussion [Hamon et Gagnayre 2013]
Identifier des compétences requises par des programmes

d’éducation thérapeutique
Identification des informations démographiques
4/115
Organisation
Organisation
10 séances (15h) de cours

Introduction au Traitement Automatique des Langues
Principe de la fouille de données textuelles
Méthodologies d’extraction d’information à partir de textes
Outils pour la mise en place de systèmes de fouille de textes
10 séances (15h) de TP
5/115
Organisation
Plan
History and context

Example
Introduction to NLP approaches
Formal language vs. Natural language
6/115
History and Context
The very beginning
Context: Back in the fifties (cold war)

Main application: Machine translation
use of computers to translate texts or messages from one
(source) language to a other language (target language)
Budget: about $20 millions in 10 years
7/115
History and Context
The mythological tests/jokes

Translation of the Biblical sentence
The spirit is willing, but the flesh is weak
or
Out of sight, out of mind
Translation in Russian
8/115
History and Context

or
and then in English
8/115
History and Context

or
and then in English
The vodka is strong, but the meat is rotten
Invisible idiot
8/115
History and Context

or
and then in English
The vodka is strong, but the meat is rotten
Invisible idiot
Literal translation (word for word translation) is inappropriate

(problem with idioms)
More information is needed
8/115
History and Context
The linguistic underside
Requirements :
Machine readable dictionaries
Syntactic information (order and function of the words)
Problems:
Ambiguities, polysemy, ...
Complex syntactic structures,
Semantics (relations, categories, ...)
Anaphora, ...
9/115
History and Context
The linguistic underside
Requirements :
Machine readable dictionaries
Syntactic information (order and function of the words)
Problems:
Ambiguities, polysemy, ...
Complex syntactic structures,
Semantics (relations, categories, ...)
Anaphora, ...
→ Need of (a lot of) context
9/115
History and Context
The (in)famous ”ALPAC report”

In 1966, by the US National Academy of the Sciences
Y. Bar-Hillel
Complete machine translation: slow, time consuming, with a
low quality
could be more expensive than human translators
Machine Translation is hopeless (!)
Recommendations:
Evaluation of the translations (quality and cost)
Machine-aided translation
More efforts on the computational linguistic research
For machine translation or not
Consequences: lower budget for machine translation

but the beginning of the Natural Language Processing (NLP)
10/115
History and Context
Contributions
Interdisciplinary research field:
Linguistics
Phonology
Generative grammars
Syntax
Philosophy of language
Mathematics:
Logic
Formal language theory
Statistics
Computer science
Algorithms
Software engineering
Machine learning
11/115
History and Context
Research fields
Two main fields

1960 Computational linguistics
Focus on mathematics and linguistics
1965 Natural Language Processing

Focus on algorithms for software development
1970 Natural Language Understanding (AI)
Cognitive approaches
T Winograd, M Minski, J Allen, ...
12/115
History and Context
50-60 years later
Phonetics, phonology, prosody

Morphology
Syntax
Semantics
Pragmatics
13/115
History and Context
50-60 years later
Phonetics Morphology Syntax Semantics Pragmatics
Pronunciation inflected form Syntactic Semantic network

Resources
Syllabation derivation lexicon Semantic lexicon

Prosody composition Terminology Desambiguisation rules
lexique.org, ... MorTAL, Celex, ... LTAG, FTAG, LFG, ... WordNet, DEC, ...
Speech Recognition Part−of−speech tagging Text structure

Syntactic analysis
Tasks
Speech synthesis Extraction of semantic units Anaphora

(text speech) Chunking Communication
(simples, complexes)
Morphological segmentation Relation acquistion
Morphological analysis Decomposition en primitives
Definition analysis
Speech recognition Spell checking Man machine dialogue Corpus Linguistics Resource building Text Generation
Applications
Terminology
Stylistics Ontology
Weather forecast, report, ... Statistical NLP Natural Language Generation
Automatic summarization
MT (Machine Translation)
CAT (Computer−assisted Translation)
IR (Information Retrieval) IE/TM (Information Extraction/Text Mining)
QA (Question Answering)
14/115
History and Context
NLP Applications
Machine Translation
Information Retrieval
Text mining (Information Extraction)
Question Answering
Dialogue, Text Generation (ChatBot)
Social network analysis (Tweets, Forum, etc.)
Lexical/linguistic/terminological resource building
...
on general-purpose or domain-specific texts
15/115
History and Context
Around the world
ACL: Association for computational linguistics

Journals: Computational LinguisticsL, JNLE, ...
Conferences: ACL, COLING, EACL, NNACL, LREC, ...
Web site: http://www.aclweb.org
Mailing list: linguist, corpora
Universities and research centers (JRC in Europ)
Compagnies (Xerox, IBM, Microsoft, Lingsoft, etc.)
16/115
History and Context
France
ATALA: Association pour le traitement automatique des
langues
TAL: revue
TALN, RECITAL, TALS, TALC, JEP, ...: conférences
Site Web : http://www.atala.org
Liste de diffusion : ln
Rapprochement TAL & IA
Journées communes ATALA/AFIA
Plateforme AFIA 2019 : inclusion de TALN-RECITAL 2019
Filières de formations
Nombreux laboratoires
Besoins en entreprise
Enjeux toujours réels
17/115
Example
How to deal with the processing of natural language data?

Natural langage : system composed of signs, used to produce
a utterance
Words are basic signs of a language
A word is made of two sides
(Ferdinand de Saussure, Cours de linguistique générale, 1916)
18/115
Example

a utterance
Phonologic form (the signifier – train)
18/115
Example

a utterance
Phonologic form (the signifier – train)
Meaning (the signified - the mental picture of the train)
18/115
Example
Several types of linguistic information help to go from one

side to the other
Those types of linguistic information are more or less
autonomous
Each interacts with others
19/115
Example

Example
Query to a kiosk to get train schedule (by the mean of human

speech)
Location: Paris station
Question: What time is the first train to Lille, tomorrow morning?
20/115
Example
How to deal with the processing of natural language data

First step
Speech processing and recognition
Computing of the speech signal to the words of the question
(Phonetics and phonology)
21/115
Example
Phonetics and Phonology
Phonetics: study of the sound of human speech (phones)

From the physical point of view
More related to Speech processing
Phonology: Study of the groups of sound to make words or
utterances in a natural language
From the linguistic point of view (phonemes)
Organisation of the sounds, syllabs, rhymes, etc.
Related to the meaning
The both also include the study of sign languages
22/115
Example

Second step
Morphological analysis
Description of the words regarding their form (morpheme)
Recognition of the
What[what,WDT] time[time,NN:n,sg] is[be,VBZ:3,sg,ind,pres] the[the,DT]

first[first,ADJ:num,ord] train[train,NN:sg] to[to,PREP] Lille[Lille,NAM] ,
tomorrow[tomorrow,NN:sg] morning[morning,NN:sg]?
23/115
Example

Second step
Recognition of the
Canonical form (dictionary entry)

23/115
Example

Second step
Recognition of the
Part of speech (grammatical category)

23/115
Example

Second step
Recognition of the
Part of speech (grammatical category)
Inflectional parameters (gender, number, ...)

23/115
Example

Third step
Parsing (syntactic analysis)

Combination of the words to make sentences
Two points of view:
Recognition of
The constituents of the sentence (noun phrases, verbal
phrases, adjectival phrases, ...)
The dependency between the words (modifier of a noun,
subject of a verb, ...
24/115
Example

Third step
(output of the Stanford parser)
det(time-2, What-1)
attr(is-3, time-2)
det(train-6, the-4)
amod(train-6, first-5)
nsubj(is-3, train-6)
prep_to(train-6, Lille-8)
nn(morning-11, tomorrow-10)
appos(Lille-8, morning-11)
25/115
Example

Third step
(output of the Stanford parser)
(ROOT
(SBARQ
(WHNP (WDT What) (NN time))
(SQ (VBZ is)
(NP
(NP (DT the) (JJ first) (NN train))
(PP (TO to)
(NP
(NP (NNP Lille))
(, ,)
(NP (NN tomorrow) (NN morning))))))
(? ?)))
26/115
Example

Fourth step
Semantic analysis
Identification of the
meaning of the words or phrases
semantic relations between them
Without taking into account the context
Logic can be used to represent semantics of a sentence
27/115
Example

Fourth step
train → object, mode of transportation

first → first answer
first train?
Lille → Location/City/railway station/direction/destination (Lille
Flandre, Lille Europe ?)
What time → Hour?
Tomorrow → (next day) Today + 1 day (1st of February, 2019)
morning → (daytime, day period) 8H00-12h00? 7H00-12H00?
before noon? before 8h?
...
28/115
Example

Fifth step
Pragmatics
Semantic interpretation of the sentence according to the
context
Contextual information:
departure? (Paris - Paris Gare du Nord, Paris Charles-de-Gaulle
Roissy Airport)
date (today)? (31th of January, 2019)
the results are sort by time (of departure)
need of the schedule
but also, reference resolution (anaphora)
29/115
Example

Fifth step
Translation in SQL query: ad-hoc methods or compilation methods

SELECT MIN ( s t a r t H o u r ) FROM t r a i n WHERE
d e p a r t u r e D a y= ’ 01/02/2019 ’
AND d e p a r t u r e L o c a t i o n= ’ P a r i s ’
AND a r r i v a l L o c a t i o n= ’ L i l l e ’
AND d e p a r t u r e H o u r < 1 2 : 0 0 AND d e p a r t u r e H o u r > 7 : 0 0 ;
(The answer is 7:04)
30/115
Example

Comments
In the real, the kiosk could need more information
(need of a human/machine dialogue)
What I didn’t say/ask (yet?):

Direct train
Track (at Paris and/or Lille)
Travel time
Class
Buy a ticket
Return ticket
Price
Rebookable or not, Refundable
For adult or child
Number of tickets
31/115
Example

here and back again
Answer generation
Translation of the query result into a textual form
The first train to Lille is at 7:40, tomorrow
In case of spoken answer, speech synthesis of the text
32/115
Example
Two directions:
Analysis of language data (textual data or human speech)
towards (more or less) the understanding of the message
Generation of language data (textual data or speech synthesis)
towards a linguistic realisation
Usually, NLP deals with the sentences
33/115

Formal language L:
(possibly infinite) set of words Σ∗

over a finite alphabet of symbols Σ
word: finite sequence of symbols of the alphabet
(syntactic) rules used to decide if a word belong to L
typical examples: regular expression, context-free grammar
Formal language:
raw approximation of natural language
tool for analysing texts
34/115
Formal language:
concatenation of symbols to make the words of the language
(possibly infinitely)
words have two sides: form and meaning
Natural language:
words are concatenated to make utterances/sentences
(possibly infinitely)
sentences have two sides: sound (or string) and meaning
→ Formalisation of grammars for Natural Language (Chomsky
1956)
35/115
But...
Ambiguities:
Avoid/rejected by formal languages
Very important in natural languages (several linguistic

structures can be associated to a sentence)
36/115
Ambiguity appears at any linguistic levels:

phonologic: I scream / Ice cream
lexical: (river) bank / bank (financial institution)
unlockable (impossible to lock / possible to unlock)
saw (to see / to saw)
syntactic: Mary ate a salad with spinach
Mary ate a (salad with spinach)
Mary (ate a salad) with spinach
37/115
semantic:
The police were ordered to stop drinking after midnight.
A sailor was dancing with a wooden leg.
Teacher strikes idle kids
anaphoric:
Margaret invited Susan for a visit, and she gave her a good
lunch.
→ All the above sentences can be correct
(but one meaning can be most probable than the other)
The interpretation depends on the context
38/115
Introduction to NLP
Two paradigms for processing texts:

Symbolic paradigm: extraction of linguistic information with
symbolic information or linguistic resources
Use of dictionary, grammars, rules
Stochastic paradigm: use of stochastic approaches to extract
linguistic information from textual corpora
Use of machine learning (classification, decision trees, ...)
The both can be mixed
39/115
Introduction to NLP
Introduction
(Méthode/Outils de) Traitement Automatique des Langues :
Analyse de données textuelles
Détection d’éléments textuels
Identification de leurs propriétés
Mise en relation des éléments identifiés
Données non-structurées
Textes libres, rédigés en langage naturel
Diversité des contenus, qualité rédactionnelle variable
Pas de structure logique explicite, au sens informatique du
terme
Mélange d’information de différents types (dates, valeurs
numériques, lieux, noms de personne, etc.)
Pré-traitements nécessaires
40/115
Introduction to NLP
Raw text
Medline abstract
1: Biosci Biotechnol Biochem. 2003 Aug;67(8):1825-7. Related Articles, Links
Comparative Analyses of Hairpin Substrate Recognition by

Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.
Ando T, Tanaka T, Kikuchi Y.
Division of Bioscience and Biotechnology, Department of Ecological

Engineering, Toyohashi University of Technology.
Previously, we reported that the substrate shape recognition of

the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.
PMID: 12951523 [PubMed - in process]

41/115
Introduction to NLP
Pre-processing
Cleaning of the texts (HTML markup)

Homogenisation of the encoding charset
Extra-linguistic normalisation
duplicated blank characters
hyphenation
font marks
typographic ligatures: diﬀerence, specific
long dash: – (--)
...
42/115
Introduction to NLP
Analyse de données textuelles

Présentation dees tâches d’annotation suivantes :
Etiquetage morpho-syntaxique et lemmatisation
Reconnaissance d’entités nommées
Extraction de termes
Analyse syntaxique
Extraction de relations sémantiques
Sans oublier
Résolution de coréférence
Systèmes de dialogue
Recherche de réponses à des questions
Génération de textes
Résumé automatique
Extraction de mots-clés
Traduction automatique
43/115
Introduction to NLP
Texte initial
Two weeks ago , the patient was started on metoprolol 12.5 mg p.o.
q.6 h. for rate control .
The patient has a history of atrial fibrillation with a slow ventricular response .
44/115
Introduction to NLP
Segmentation en mots et en phrases
Two weeks ago , the patient was started on metoprolol 12.5 mg p.o.
The patient has a history of atrial fibrillation with a slow ventricular response .
Identification des mots et des phrases

Tâche généralement intégrée aux outils d’étiquetage
morpho-syntaxique, de lemmatisation ou de reconnaissance d’entités
nommées
44/115
Introduction to NLP
Etiquetage morpho-syntaxique et lemmatisation

https://aclweb.org/aclwiki/POS_Tagging_(State_of_the_art)
Two week ago , the patient be start on metoprolol 12.5 mg p.o.

CD NNS RB DT NN VBD VBN IN FW CD NN SYM

FW NP IN NN NN
The patient have a history of atrial fibrillation with a slow ventricular response .
DT NN VBZ DT NN IN JJ NN IN DT JJ JJ NN
Deux tâches pouvant être couplées

De nombreux jeux d’étiquettes morpho-syntaxiques
44/115
Introduction to NLP

https://aclweb.org/aclwiki/Named_Entity_Recognition_(State_of_the_art)
[TIMEX3] [DRUG] [DOSAGE] [MODADM]

[FREQ]

FW NP IN NN NN
Généralement :
reconnaissance des noms propres, des valeurs numériques, etc.

utilisation d’un texte étiqueté et lemmatisé
45/115
Introduction to NLP
Extraction de termes
[TIMEX3] [DRUG] [DOSAGE] [MODADM]

[FREQ] [DISORDER]

FW NP IN NN NN
[DISORDER] [DISORDER]
Utilisation sur des textes issus de domaines de spécialité

Identification des groupes nominaux correspondant à des notions d’un
domaine
Types sémantiques associés lorsque les termes sont issus d’une ressource
terminologique
46/115
Introduction to NLP
Analyse syntaxique
https://aclweb.org/aclwiki/Parsing_(State_of_the_art)
Construction de l’arbre syntaxique des phrases

Deux types d’analyse : en dépendances ou en constituants
47/115
Introduction to NLP
Analyse syntaxique
https://aclweb.org/aclwiki/Parsing_(State_of_the_art)
Exemple d’analyse en constituants :
48/115
Introduction to NLP
Extraction de relations sémantiques
Extraction d’événement à partir de textes biomédicaux

Basé sur une analyse syntaxique, un classifieur SVM et un
post-traitement sémantique à base de règles
Exemple :
(issu de
Turku Event Extraction System (TEES)
http://jbjorne.github.io/TEES/)
49/115
Introduction to NLP
Plateformes de TAL
La plupart des outils intègrent plusieurs traitements, mais

ils sont dédiés à une tâche en particulier
ils n’offrent pas vraiment la possibilité d’agencer des outils de
TAL ou d’intégrer des ressources suivant les besoins applicatifs
Nombreuses platformes disponibles
Interopérabilité entre des outils de TAL existants ou
réimplementation de méthodes
Réflexion sur les formats de stockage des annotations (souvent
déportées)
Proposition des API
50/115
Introduction to NLP
Plateformes de TAL
GATE http://gate.ac.uk/
UIMA http://uima.apache.org/
NLTK http://www.nltk.org/
Stanford coreNLP https://stanfordnlp.github.io/CoreNLP/
LingPipe http://alias-i.com/lingpipe/
OpenNLP http://incubator.apache.org/opennlp/
Treex ufal.mff.cuni.cz/treex
Lima https://github.com/aymara/lima/wiki
Ogmios http://search.cpan.org/~thhamon/Lingua-Ogmios/
Plateforme Alvis (INRA)
http://bibliome.jouy.inra.fr/demo/ontobio/alvisir2/webapi/search
FreeLing http://nlp.lsi.upc.edu/freeling/
NLPCube http://opensource.adobe.com/NLP-Cube/index.html
51/115
Introduction to NLP
Ressources
Fournissent les informations linguistiques nécessaires aux

outils de TAL
Liste de mots « vides »
Ressources lexicales
Ressources terminologiques
Réseaux sémantiques
Lexiques divers (émotions, etc.)
Mais aussi des corpus annotés
52/115
Introduction to NLP
Ressources pour le TAL

Lexiques :
DELA http://infolingu.univ-mlv.fr/DonneesLinguistiques/
Dictionnaires/telechargement.html
Morphalou http://www.cnrtl.fr/lexiques/morphalou/
Lefff http://alpage.inria.fr/~sagot/lefff.html
GLAFF http://redac.univ-tlse2.fr/lexiques/glaff.html
GLAWI http://redac.univ-tlse2.fr/lexiques/glawi.html
Autres ressources linguistiques :
FrameNet https://framenet.icsi.berkeley.edu/fndrupal/
WoNef https://wonef.fr/
UMLS https://uts.nlm.nih.gov/home.html
Corpus :
Penn Treebank http://www.cis.upenn.edu/~treebank/
French TreeBank http://ftb.linguist.univ-paris-diderot.fr/
53/115
Introduction to NLP
Bilan
Nombreux outils pour les différentes tâches du TAL

Assez peu interopérables directement (formats et jeux
d’étiquettes différents)
Mais très souvent : intégration de plusieurs tâches de TAL en
amont de la finalité de l’outil
Plusieurs plateformes de TAL pour des utilisateurs et des
applications variées
Accès aux tâches d’analyse de données textuelles dans des
applications à « moindre coût »
54/115
Introduction à la Fouille de Textes
Constat : prépondérance des données non-structurées

plus 90% des données produites en 2011 (sur 1.8 trillion de
gigaoctets) [Oracle, 2011]
85% des données d’entreprise
Données non-structurées : des textes
Importante source d’informations
Mais la lecture est coûteuse en temps, voir impossible
Besoin d’aller au-delà de la recherche de documents
55/115
Constat : prépondérance des données non-structurées

plus 90% des données produites en 2011 (sur 1.8 trillion de
gigaoctets) [Oracle, 2011]
85% des données d’entreprise
Données non-structurées : des textes
Importante source d’informations
Mais la lecture est coûteuse en temps, voir impossible
Besoin d’aller au-delà de la recherche de documents
Accèder à ces informations nécessite de fouiller les textes
automatiquement
55/115

Des textes de différentes natures
Pages Web, blogs, forums, emails

Documents techniques, rapports produits dans les entreprises
Livres, Bibliothèques numériques, articles scientifiques

Enquête de consommateurs, Lettres de plaintes de consommateurs
Dossiers patients (examens médicaux, lettres de médecin, compte-rendus,
etc. )
Rapports d’interaction entre médicaments, de décès
Rapports d’incidents, constats d’accident
Dépêches, articles de journaux
...
56/115

Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Pages Web, blogs, forums, emails

etc. )
...
56/115

Analyse d’opinion, de comportement, filtrage des spams

etc. )
...
56/115

Analyse d’incidents, Constitution d’une mémoire d’entreprise, Aide à la
rédaction, Analyse du besoin, Formalisation de spécifications
etc. )
...
56/115

Agrégation de données, Structuration de connaissances, Aide à la décision
etc. )
...
56/115

Etude des tendances, analyse d’opinion, rapports d’incidents
etc. )
...
56/115

Aide à la décision médicale, Aide à la lecture, Codage et facturation des
interventions
...
56/115

interventions
Etude épidémiologique, rédaction de RCP, Pharmacovigilance
...
56/115

interventions
Analyse du risque, Estimation de coûts, aide à la décision
...
56/115

interventions
Analyse d’opinion, Aide à la lecture ou à la décision, prédiction de
mouvements financiers
...
56/115

interventions
Analyse d’opinion, Aide à la lecture ou à la décision, prédiction de
mouvements financiers
Mais aussi : détection de plagiat/attribution d’auteurs,
analyse/comparaison de brevets
...
56/115
Introduction à la Fouille de données textuelles

Objectif :
Extraire des textes, les connaissances non-triviales et intéressantes
C’est-à-dire :
Extraire les informations
57/115

Objectif :
C’est-à-dire :
utiles pour une tâche donnée
57/115

Objectif :
C’est-à-dire :
à partir de données textuelles, rédigées en langage naturel
57/115

Objectif :
C’est-à-dire :
Regrouper et mettre en relation ces informations
57/115

Objectif :
C’est-à-dire :
Transformer du texte en connaissances utiles pour une analyse
donnée
Alimentation de bases de données ou des bases de connaissances
57/115

Objectif :
C’est-à-dire :
Transformer du texte en connaissances utiles pour une analyse
donnée
Alimentation de bases de données ou des bases de connaissances
Mais aussi, permettre indirectement la fouille de données sur des

données non-structurées
57/115
Fouille de données vs. Fouille de textes

Data mining vs. Text mining
Fouille de données (data mining)

– Méthodes et algorithmes d’exploration des données structurées,
issues de bases de données, d’entrepôts de données
– Objectifs : Mise en évidence de règles, identification de
tendances, comportement invisible pour un humain
58/115
Fouille de données vs. Fouille de textes

Data mining vs. Text mining
Fouille de données (data mining)

– Méthodes et algorithmes d’exploration des données structurées,
issues de bases de données, d’entrepôts de données
– Objectifs : Mise en évidence de règles, identification de
tendances, comportement invisible pour un humain
Fouille de textes (text mining)
– Méthodes d’exploitation de données non-structurées, présentes
dans des textes rédigés en langage naturel
– Objectifs : Extraction et catégorisation d’informations
présentes dans les textes
58/115
Caractéristiques de la fouille de textes
Matériau initial : Corpus/collection de documents textuels

Connaissances sur la langue : Ressources linguistiques et
terminologiques
Accès aux informations linguistiques : Méthodes d’analyse
linguistique (TAL) plus ou moins sophistiquées
Regroupement des informations : Classification ou
catégorisation automatique des informations
Quantification des informations identifiées dans les
documents : Mesures de similarité
Prise en compte de la sémantique dans l’accès à l’information
59/115
Domaines associés
La fouille de textes emprunte des méthodes ou s’appuie sur

plusieurs domaines :
Recherche d’information
Analyse lexicographique
Apprentissage automatique (supervisé ou non)
Traitement Automatique des Langues (TAL)
Statistiques
Visualisation de données, de l’information
...
60/115
Difficultés de la fouille de texte
Collection de données en texte libre

Données éparpillées, mal organisées, bruitées
structure différente d’un texte à l’autre
pas statistiquement indépendant
Données multilingues
Données non-structurées, au mieux semi-structurées
Volume de données textuelles important
Temps de traitement de données textuelles élevés
61/115
Importance du contexte dans l’accès à l’information

Ambiguïtés de la langue à tous les niveaux
Variation dans les énoncés similaires sémantiquement
Nombre élévé et imprévisible de dimensions possibles :
Tous les mots et expressions de la langue peuvent être présents
dans les textes (cf. accroissement du vocabulaire et Loi de
Zipf)
On peut aussi avec de nouveaux mots
acronymes, néologismes
noms de marque, de personnes, de lieux, des dates, etc.)
mots empruntés à d’autres langues
62/115
Courbe d’accroissement du vocabulaire

Corpus Menelas
63/115
Loi de Zipf
Soient les mots d’un corpus donné, le rang d’un mot correspond à
son nombre d’occurrence (dans l’ordre décroissant).
La loi de Zipf prévoit que le nombre d’occurrence d’un mot est
inversement proportionnel à son rang.
64/115
Répartition du nombre d’occurrences

Corpus Menelas
65/115
Répartition du nombre d’occurrences

Corpus Menelas
Echelle logarithmique
66/115

Ambiguïtés de la langue à tous les niveaux :
lexical :
avocat[fruit] vs. avocat[métier]
porte[N] vs. porte[V]
Apple[société] vs. apple[fruit]
syntaxique :
la route est déviée par la gendarmerie.
Sylvain a vu un homme avec un télescope.
sémantique :
une personne curieuse
L’homme descend du singe. Le singe descend de l’arbre
pragmatique :
Le professeur a envoyé l’élève chez le proviseur parce qu’il le
trouvait insupportable.
ce charmant patient
67/115
Variation dans les énoncés similaires sémantiquement :

Bayer rachète Monsanto
Monsanto est rachété par Bayer
Bayer et Monsanto fusionnent
Monsanto fusionne avec Bayer
fusion Monsanto-Bayer
Métonymie (le dernier Apple/Samsung)
Métaphore (Géant du Web, or noir)
Erreurs d’orthographe : Appel/Apple
...
68/115
Exemples de données textuelles

Résumé d’article scientifique



substrate.
69/115




substrate.
Commentaires :
69/115




substrate.
Commentaires : Syntaxe correcte (ouf !)
69/115




substrate.
Commentaires : Syntaxe correcte (ouf !), phrases longues et complexes
69/115




substrate.
Commentaires : Abréviations
69/115




substrate.
Commentaires : Abréviations, vocabulaire et sémantique spécialisés
69/115




substrate.
Commentaires : Variation sémantique
69/115

Message issues de forum de discussion
Sujet: galere pour initialiser un iphone 4

Auteur: tirando
Posté le 15-09-2016 à 11:52:13
Bonjour
On ma donne un iphone 4 desimlocker et a priori depareillé du compte

icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.
70/115


Auteur: tirando
Posté le 15-09-2016 à 11:52:13
Bonjour

icloud
Commentaires :
70/115


Auteur: tirando
Posté le 15-09-2016 à 11:52:13
Bonjour

icloud
Commentaires : accents sur caractères accentués quasiment toujours absents
70/115


Auteur: tirando
Posté le 15-09-2016 à 11:52:13
Bonjour

icloud
Commentaires : apostrophes manquants (espace, ou mots regroupés)
70/115


Auteur: tirando
Posté le 15-09-2016 à 11:52:13
Bonjour

icloud
Commentaires : peu de majuscule (iphone, itunes, apple)
70/115


Auteur: tirando
Posté le 15-09-2016 à 11:52:13
Bonjour

icloud
Commentaires : ponctuation approximative (points de fin de phrases absents)
70/115


Auteur: tirando
Posté le 15-09-2016 à 11:52:13
Bonjour

icloud
Commentaires : fautes d’orthographe, d’accord ou de conjugaison
70/115


Auteur: tirando
Posté le 15-09-2016 à 11:52:13
Bonjour

icloud
Commentaires : franglais
70/115


Auteur: tirando
Posté le 15-09-2016 à 11:52:13
Bonjour

icloud
Commentaires : franglais, sémantique approximative
70/115


Auteur: tirando
Posté le 15-09-2016 à 11:52:13
Bonjour

icloud
Commentaires : niveau de langue variable...
70/115

Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
Merci! C'est mon dernier espoir avant de passer sous Android...
71/115

Posté le 02-09-2016 à 23:16:12
Yo!
Commentaires :
71/115

Posté le 02-09-2016 à 23:16:12
Yo!
Commentaires : accents sur caractères accentués parfois absents
71/115

Posté le 02-09-2016 à 23:16:12
Yo!
Commentaires : certains points de fin de phrases absents
71/115

Posté le 02-09-2016 à 23:16:12
Yo!
Commentaires : fautes d’orthographe
71/115

Posté le 02-09-2016 à 23:16:12
Yo!
Commentaires : fautes d’orthographe, d’accord ou de conjugaison
71/115

Posté le 02-09-2016 à 23:16:12
Yo!
Commentaires : franglais
71/115

Posté le 02-09-2016 à 23:16:12
Yo!
Commentaires : franglais, niveau de langue variable
71/115

Posté le 02-09-2016 à 23:16:12
Yo!
Commentaires : interprétation nécessitant une connaissance du monde
71/115

Posté le 02-09-2016 à 23:16:12
Yo!
Commentaires : variation sémantique
71/115

Recette de cuisine - texte procédural
Tartiflette
Temps de préparation : 30 minutes
Temps de cuisson : 20 minutes
Ingrédients (pour 6 personnes) :

- 1 reblochon et demi (2 pour les gourmands)
- 1,2 kg de pommes de terre
- 1 tranche de jambon fumé coupée en dés (ou bien des lardons ou des dés de bacon)
- 500 g d'oignons
- 40 cl d'Apremont ou autre blanc de Savoie sec (facultatif, mais donne plus de goût)
- 1 pincée de sel
- 1 pincée de poivre
Préparation de la recette :
Faites cuire les pommes de terre avec leur peau. Épluchez-les et coupez-les en rondelles.
Émincez les oignons puis faites-les revenir avec un peu de beurre. Une fois dorés, y ajouter le
jambon (ou les lardons), ainsi que les pommes de terre. Laissez mijoter 15 min.
Si vous utilisez du vin blanc, c'est le moment de l'ajouter. Salez un peu, poivrez, laissez les
pommes de terre s'imprégner du vin blanc quelques minutes avant de transférer le tout dans un
plat à gratin.
Grattez au couteau les reblochons, coupez-les en 2 dans le sens de l'épaisseur et posez les sur
les pommes de terre.
Faites cuire à four chaud (220°C) pendant 20 à 30 min. Servez avec une salade verte, voire
quelques tomates, juste assaisonnées d'un peu de vinaigre d'échalote.
Boisson conseillée :
Apremont, blanc de savoie sec
72/115

Tiramisu
Temps de préparation : 20 minutes
Temps de cuisson : 0 minutes
Ingrédients (pour 6 personnes) :

- 3 gros oeufs
- 40 g de cassonade
- 125 g de mascarpone
- 120 g de petit-suisse à 3,8% de matière grasse
- 10 cl de café noir non sucré
- 10 g de poudre de cacao amer
- 1 cuillère à soupe de rhum vieux ou d’amaretto
- 12 biscuits à la cuillère
Préparation de la recette :
Séparer les blancs des jaunes.
Blanchir les jaunes avec la cassonade à l’aide d’un fouet électrique. Ajouter le mascarpone et
les petits-suisses puis bien fouetter. Ajouter l’alcool.
Monter les blancs en neige et les incorporer délicatement à la spatule au mélange précédent.
Réserver.
Préparer du café noir et y ajouter l’alcool.

Couper les biscuits en deux si besoin et les tremper légèrement dans le café.
Tapisser chaque verrine (24 cl) de deux moitiés de biscuits. Recouvrir de deux cuillères à
soupe de crème, d’une couche de deux moitiés de biscuits mouillés puis terminer avec deux
cuillères à soupe de crème. Mettre au réfrigérateur 6 heures minimum mais encore meilleur si
préparé la veille et laissé au frais toute la nuit.
73/115

(suite)
Saupoudrer de cacao au moment de servir et déguster frais.
Pour une 1 part :

- environ 240 calories
Équivalences dans un repas :

- 1 fruit moyen
- 1 portion de fromage (environ 30 g)
- 1 cuillère à café d’huile
Astuces : Si on décide de mettre plus de biscuits soit 4 par verrine au lieu de 2, on

rajoutera dans l’équivalence repas : 1 tranche de pain
Valeurs nutritionnelles :
- protéines : environ 5 g
- lipides : environ 15 g
- glucides : environ 20 g
Remarques :
Cette recette adaptée pour une personne diabétique a été élaborée en collaboration avec les
diététiciennes Jacqueline Delaunay, Céline Benoit et Patricia Fiquet
74/115

Extraits de dossiers patients anonymisés
DISCHARGE MEDICATIONS:
HYDROCORTISONE 2.5% -RECTAL CREAM TP BID
Instructions: Apply to hemorrhoids
BEN-GAY TOPICAL TP BID
Instructions: Apply liberally to legs
Alert overridden: Override added on 9/8/03 by
FACK , PASQUALE DIEGO , M.D.
DEFINITE ALLERGY ( OR SENSITIVITY ) to SALICYLATES
Reason for override: aware
PREMARIN ( CONJUGATED ESTROGENS ) 1.25 MG PO QD
LASIX ( FUROSEMIDE ) 60 MG qam; 40 MG qpm PO BID 60 MG qam
40 MG qpm Starting Today ( 0/29 )
METAMUCIL SUGAR FREE ( PSYLLIUM ( METAMUCIL ) SU... )
1 PACKET PO TID Instructions: With meals
NORVASC ( AMLODIPINE ) 10 MG PO QD
Food/Drug Interaction Instruction
Avoid grapefruit unless MD instructs otherwise.
AMBIEN ( ZOLPIDEM TARTRATE ) 10 MG PO QHS PRN insomnia
75/115

RRR , lots of BS's , neuro nonfocal , ext with 1+ edema. On atenolol ,

zestril , norvasc , premarin , detrol , lasix 60 qd , nebs prn at home.
Labs sig for Cr 0.7 , CK 48 , TnI .05 , QBC 9.5 , Hct 41.3. From CV
point of view , thought to be CHF exac. ROMI'd without events on monitor
and diuresed 2L/day. IV Lasix 80 bid to start transitioned to 60 po
bid. BNP>assay. 6/17 dobut MIBI with mod sized ant septal wall defect
c/w diagonal lesion , 3/22 Echo with EF 55-60% , mild LAE/RAE ,
no WMA , mod large RV. No further CV studies. Cont previously meds on
d/c. From FEN point of view , 2 L fluid restriction , 2 g Na
restriction. Nutrition consult , but pt very resistant to diet changes.
From GI point of view , GERD; nexium started. From pulm point of view ,
CXR c/w sl fluid overload , no focal findings , no pulm edema. Given NC
O2 and BiPAP at night.
76/115

The patient is currently off diuretics at this time. Daily

weights should be checked and if her weight increases by more
than 3 pounds Dr. Bockoven should be notified. The patient was also
started on calcitriol given elevation of parathyroid hormone.
Cardiovascular: Rate and rhythm: The patient has a history of
atrial fibrillation with a slow ventricular response. The
patient was started on metoprolol 12.5 mg p.o. q.6 h. for rate
control , however , this dose was decreased to 12.5 mg p.o. twice a
day, given some bradycardia on her telemetry. The patient was
also started on Flecainide 75 mg p.o. q.12 h. She will continue
on these two medications upon discharge.
77/115
Recherche vs. Découvrir
Recherche Découverte
données Extraction de données Fouille de données

structurées BD BD, entrepôts
Recherche d’information Fouille de textes

données
collection de textes collection de textes
non structurées
(textes indexés) (corpus)
78/115
Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
79/115
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
79/115
termes
3 Identification de relations entre EN et termes
79/115
termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
79/115
termes
régles d’extraction (expression régulières, etc.)
79/115
termes
modèles d’apprentissage obtenus à partir d’un corpus
d’exemples
79/115
termes
d’exemples
apprentissage supervisé (CRF, Arbre de décision, SVM, etc.)
79/115
termes
d’exemples
apprentissage non-supervisé (règles d’association, k-means,
etc.)
79/115
termes
d’exemples
apprentissage non-supervisé (règles d’association, k-means,
etc.)
4 Extraction d’information
79/115
Données textuelles
Données textuelles
80/115
Données textuelles
Fouille de texte
Chaîne de traitements
Collecte Documents (PDF, .doc, etc.)

des données Pages web (HTML, XML, etc.), Mails, Forums, etc.
Nettoyage et Nettoyage, Segmentation en mots et phrases

Pré-traitements Etiquetage morpho-syntaxique, lemmatisation
Annotation
des entités
Reconnaissance et extraction de termes
sémantiques
Regroupement Acquisition de relations sémantiques

des entités Classification et catégorisation sémantique
Elimination des entités non pertinentes

Sélection
Désambiguïsation sémantique
des entités
Traitements spécifiques liés à la tâche
Post-traitements
81/115
Données textuelles
Données structurées vs. données non-structurés

Données structurées
données:
stockées dans une structure logique (BD, enregistrement, etc.)
consistantes
typées
idéales pour la fouille de données
Données non-structurées
textes libres, rédigés en langage naturel
pas de structure logique explicite, au sens informatique du
terme
mélange d’information de différents types (dates, valeurs
numériques, lieu, nom de personne, etc.)
Le matériau principal de la fouille de textes
82/115
Données textuelles
Données semi-structurées
Combinaison de texte libre et de données structurés : XML,

RDF
Exemples
1 Une partie contient des informations directement stockables
dans une base de données
Une autre partie contient des zones de texte libre
83/115
Données textuelles
Exemple
DrugBank
84/115
Données textuelles
Données semi-structurées
Combinaison de texte libre et de données structurés : XML,

RDF
Exemples
1 Une partie contient des informations directement stockables
dans une base de données
Une autre partie contient des zones de texte libre
2 Questionnaire contenant une zone de commentaires
85/115
Données textuelles
Type de données textuelles

Textes ou collection de textes: corpus textuels
De grandes variations :
Formats électronique (texte brut, HTML, XML, PDF, Word,
etc.)
Encodage de caractères (ASCII, ISO-LATIN-1, windows-1252,
UTF-8, etc.)
Type de documents (pages web, blogs, articles scientifiques,
articles de journaux, livres, tables, messages de forum, emails,
SMS, etc.)
Taille: entre quelques Kilo-octets et plusieurs Giga-octets
→ En général : Manipulation de textes bruts
86/115
Données textuelles
Texte brut/fichier plein texte

Résumés Medline
1: Biosci Biotechnol Biochem. 2003 Aug;67(8):1825-7. Related Articles, Links



substrate.
PMID: 12951523 [PubMed - in process]

87/115
Données textuelles
HTML
Page Web
→ Nécessite d’extraire le contenu utile
88/115
Données textuelles
HTML
Page Web
<p>Le déploiement de Lollipop sur les appareils de Samsung a été pour
le moins chaotique. Le premier appareil du coréen à disposer de
Lollipop a été le Galaxy S5, dont la mise à jour a été déployée en
janvier dernier. Samsung assure d’ailleurs un suivi exemplaire,
puisqu’une seconde a été mise en ligne quelques jours après, et met le
téléphone à jour vers la version 5.0.2 de Lollipop avec, en plus, un
véritable mode silencieux.</p>  <div class="see-more" ><p>
<strong class="see-more-title caps" >En savoir plus :</strong> <a
href="https://www.frandroid.com/marques/samsung/264390_prise-en-main-du-galaxy-s5-de-samsung-sous-lollipop
Galaxy S5 : Lollipop est arrivé et voici les changements qu’il
apporte</a> </p> </div> <p>Le cas des autres appareils de Samsung est
un peu plus flou. On sait que le déploiement de Lollipop sur le Galaxy
Note 4, Galaxy Note 4 Edge, <a
href="//www.frandroid.com/marques/samsung/265050_samsung-galaxy-note-3-lollipop-est-arrive-en-russie"
target="_blank">Galaxy Note 3</a> et le Galaxy S4 est imminent. La ROM
est actuellement déployée <a
href="//www.frandroid.com/marques/samsung/267697_samsung-galaxy-note-4-lollipop-est-aussi-en-coree-du-sud"
target="_blank">en Corée du Sud </a>et <a
href="//www.frandroid.com/marques/samsung/267900_le-samsung-galaxy-note-4-sous-snapdragon-805-recoit-son-t
target="_blank">dans quelques pays de l’Europe de l’Est</a>,
certainement pour la tester et devrait arriver sur les smartphones
occidentaux d’ici quelques jours ou semaines.</p> <p>Il reste enfin
quelques inconnues dans les appareils de Samsung. Le cas du Galaxy
Alpha, pourtant sorti peu de temps avant le Galaxy Note 4, est à ce
jour inconnu. Il serait improbable que Samsung ne le mettre pas à jour
vers Lollipop, mais il n’a jamais communiqué sur le statut de cet
appareil depuis le début de l’année. Même remarque pour la version
Mini du Galaxy S5, dont on ne sait pas quand la mise à jour arrivera
89/115
Données textuelles
Texte brut issu de la page Web

Le déploiement de Lollipop sur les appareils de Samsung a été pour le
moins chaotique. Le premier appareil du coréen à disposer de Lollipop
a été le Galaxy S5, dont la mise à jour a été déployée en janvier
dernier. Samsung assure d’ailleurs un suivi exemplaire, puisqu’une
seconde a été mise en ligne quelques jours après, et met le téléphone
à jour vers la version 5.0.2 de Lollipop avec, en plus, un véritable
mode silencieux.
Le cas des autres appareils de Samsung est un peu plus flou. On sait
que le déploiement de Lollipop sur le Galaxy Note 4, Galaxy Note 4
Edge, Galaxy Note 3 et le Galaxy S4 est imminent. La ROM est
actuellement déployée en Corée du Sud et dans quelques pays de
l’Europe de l’Est, certainement pour la tester et devrait arriver sur
les smartphones occidentaux d’ici quelques jours ou semaines.
Il reste enfin quelques inconnues dans les appareils de Samsung. Le

cas du Galaxy Alpha, pourtant sorti peu de temps avant le Galaxy Note
4, est à ce jour inconnu. Il serait improbable que Samsung ne le
mettre pas à jour vers Lollipop, mais il n’a jamais communiqué sur le
statut de cet appareil depuis le début de l’année. Même remarque pour
la version Mini du Galaxy S5, dont on ne sait pas quand la mise à jour
arrivera si ce n’est à un vague « deuxième trimestre de l’année«
. Enfin, Samsung a confirmé que le Galaxy Note 2 aura bel et bien
droit à Lollipop.
90/115
Données textuelles
Page Web Wikipedia
91/115
Données textuelles
Brochures médicales
92/115
Données textuelles
Notion de corpus
Des textes sous forme électronique ne font pas un corpus
Un corpus
93/115
Données textuelles
Notion de corpus
Un corpus
est une collection de textes
93/115
Données textuelles
Notion de corpus
Un corpus
qui sont sélectionnés et organisés
93/115
Données textuelles
Notion de corpus
Un corpus
selon des critères linguistiques et sociologiques
93/115
Données textuelles
Notion de corpus
Un corpus
explicites
93/115
Données textuelles
Notion de corpus
Un corpus
explicites
pour servir d’échantillon du langage lié à l’application
visée.
93/115
Données textuelles
Linguistique de corpus
Fondement principal des approches de fouille de texte

Pas d’a priori sur la langue
L’information nécessaire se trouve dans le corpus
Corpus de spécialité caractérisés par :
un lexique limité (termes, synonymes)
schémas syntaxiques particuliers
Disponibilité d’outils nécessaires
dépouillement et traitements du corpus
94/115
Données textuelles
Types de corpus
Corpus de référence
Corpus spécialisé
Mais aussi, Corpus de presse, de dépêches
95/115
Données textuelles
Corpus de référence
tend à fournir une vue complète d’une langue

description des caractéristiques linguistiques
sert de base pour la production de :
grammaires
dictionnaires
sa composition :
une sélection de textes selon un modèle des critères
sociologiques, linguistiques, etc.
structure interne :
sous-corpus thématiques, origine, etc.
96/115
Données textuelles
Corpus de spécialité
textes issus d’un domaine de spécialité

médecine, cogénération, télécommunications, etc.
représente un langage de spécialité (sous-langage)
pour un domaine donné
a des particularités lexicales et grammaticales
sert de base pour
beaucoup d’application de fouille de texte
la production de terminologies (thesaurus, etc.)
structure interne :
sous-corpus thématiques, origine, etc.
97/115
Données textuelles
Démarches dans la constitution du corpus
Regroupement de textes opportuniste

Regroupement de textes raisonné et ciblé :
représentativité :
taille suffisante
données diversifiées
genre, spécialisation
origine mémorisée
98/115
Données textuelles
Exigences vis-à-vis d’un corpus
Le corpus doit satisfaire une triple exigence :

pertinence par rapport au domaine
textes représentatifs de ceux produits dans le domaine
pertinence par rapport à la tâche
textes représentatifs de ceux manipulés par l’application finale
prise en compte des possibilités des outils de traitement
automatique
99/115
Données textuelles
Pertinence par rapport au domaine
textes qui véhiculent la connaissance du domaine :

textes spécialisés
textes de vulgarisation
100/115
Données textuelles
Quelques tactiques de constitution de corpus
scannérisation
collecte auprès des experts
documentation d’une entreprise, d’un service
exploration d’une base de données spécialisée
exploration de l’Internet
101/115
Données textuelles
Pertinence par rapport au domaine
Caractérisation du domaine :
mots clés, termes centraux du domaine, descripteurs
Garantie de la centralité des documents :
présence des mots clés dans ces documents
Recensement de textes qui véhiculent la connaissance du
domaine :
textes spécialisés
textes pour les non-spécialistes
textes de vulgarisation
(à inclure suivant la tâche)
102/115
Données textuelles
Pertinence par rapport à la tâche

Prendre en compte l’application finale :
objectifs
un phénomène linguistique, grammaire, style littéraire
application
recherche d’information, indexation, etc.
portée
interne, externe à une entreprise, nationale, etc.
spécialisation
corpus de langue générale, de langue de spécialité
type de corpus
contexte multilingue : corpus parallèle
103/115
Données textuelles
Pertinence par rapport aux outils
Prendre en compte les possibilités des outils disponibles

Choisir des outils en fonction de textes à traiter :
robustesse
langue
format
Outils monolingues ou bien multilingues
104/115
Données textuelles
Exemple de corpus spécialisés
Corpus Menelas :
genres :
manuels
comptes rendus d’examens et de traitements
lettres aux collègues
domaine :
maladies coronariennes
105/115
Données textuelles
Corpus Clef médical :

genres :
compte-rendus d’hospitalisation
RMO
portail médical (CISMeF)
domaines :
stomatologie
néphrologie
neurologie
etc.
106/115
Données textuelles
Corpus Safir (co-génération d’électricité et de chaleur) :

documents de l’Internet :
textes reglementaires de la communauté européenne
documents de présentation des sociétés
documents techniques de vulgarisation
documents des conférences sur la cogénération :
présentation des sociétés et de leurs produits
documents écologiques
documents des bases de données internes :
fiches techniques
présentation des sous-domaines, des branches
107/115
Données textuelles
Corpus I2B2
(I2B2 – Informatics for Integrating Biology and the Bedside)
2009 : Extraction d’information dans les dossiers patient (1 249

documents, 696 pour l’entrainement – 17 annotés manuellement,
et 553 pour la phase de test)
Extraction des
noms des médicaments administrés aux patients (dans le
passé ou actuellement)
informations liées (dosage, durée, fréquence, mode
d’administration, raison(s) de la prescription)
108/115
Données textuelles
Autres types de corpus :
corpus comparables constituent des sélections de textes similaires

(langues ou variétés d’une langue)
corpus parallèles sont constitués de documents traduits dans une
ou plusieurs langues
corpus alignés les passages correspondants sont réliés (Hansard)
corpus de suivi corpus en évolution, corpus glissant
corpus segmentés segmentation en mots, phrases, etc.
corpus étiquetés étiquetage morpho-syntaxique
corpus arborés analyse syntaxique
etc.
109/115
Données textuelles
Problèmes juridiques
Information confidentielle
Menelas (CRH : maladies coronariennes)
secret médical
Safir (documents divers : cogénération)
données confidentielles d’une entreprise (EDF)
Propriété intellectuelle
droits d’auteur
droits d’annotateurs de corpus
110/115
Données textuelles
Solutions :
secret médical (Informatique et Liberté)
anonymisation ou dé-identification :
nom du patient
service
date et lieu de naissance
coordonnées du patient
coordonnées du service
date de consultation, d’hospitalisation
nom du médecin
111/115
Données textuelles
Solutions :
propriété intellectuelle :
extraits
convention
cession de droits, licence d’utilisation, etc.
confidentialité vis-à-vis d’une entreprise :
convention, achat d’une licence
documents « non-sortables »
???
112/115
Données textuelles
Echantillonnage
problèmes juridiques
”équilibrer” en taille les textes
”représenter” une diversité maximale de situations de
communication
ne pas sur-représenter des ”lieux” de textes aux
caractéristiques particulières
problèmes :
comportements hétérogènes des occurrences dans les
documents
113/115
Données textuelles
Documentation
Types d’informations
contexte de production du texte
auteur, date, taille, format, public visé, thème, objectif, etc.
contexte de collecte de corpus
date, responsables, taille, etc.
Enregistrement
dans des tables externes
encodage XML
114/115
Données textuelles
Regroupement des documents

dans un corpus
Identification des sources de documents

Source des documents :
base bibliographique
collection interne
Web
Utilisation d’un crawler, de requêtes Google
Aspiration d’un site Web
115/115
Données textuelles
Aubin (Sophie) et Hamon (Thierry). –
Improving Term Extraction with Terminological Resources. In : Advances in Natural Language Processing
(5th International Conference on NLP, FinTAL 2006), éd. par Salakoski (Tapio), Ginter (Filip),
Pyysalo (Sampo) et Pahikkala (Tapio). pp. 380–387. –
Springer.
Gollub (Koraljka), Hamon (Thierry) et Ardö (Anders). –

Automated classification of textual documents based on a controlled vocabulary in engineering. Knowledge
Organization, vol. 34 (4), 2007, pp. 247–263.
Grabar (Natalia), Jaulent (Marie-Christine) et Hamon (Thierry). –

Combination of endogenous clues for profiling inferred semantic relations: experiments with Gene Ontology.
In : Proceedings of the AMIA 2008 Annual Symposium, pp. 252–256. –
Washington, DC, November 2008. PMID 18999042.
Grabar (Natalia), Varoutas (Paul-Christophe), Rizand (Philippe), Livartowski (Alain) et Hamon

(Thierry). –
Automatic acquisition of Synonym Ressources and Assessment of their Impact on the Enhanced Search in
EHRs. Methods of Information in Medicine, vol. 48 (2), 2009, pp. 149–154. –
PMID 19283312, DOI 10.3414/ME9213.
Grabar (Natalia) et Hamon (Thierry). –

Exploitation of speculation markers to identify the structure of biomedical scientific writing. In :
Proceedings of AMIA 2009 Symposium, pp. 203–207. –
San Francisco, USA, November 2009.
Hamon (Thierry), Nazarenko (Adeline), Poibeau (Thierry), Aubin (Sophie) et Derivière (Julien). –
A Robust Linguistic Platform for Efficient and Domain specific Web Content Analysis. In : Proceedings of
RIAO 2007. –
Pittsburgh, USA, 2007. 15 pages.
115/115
Données textuelles
Hamon (Thierry), Graña (Martin), Raggio (Víctor), Grabar (Natalia) et Naya (Hugo). –
Identification of relations between risk factors and their pathologies or health conditions by mining scientific
literature. In : Proceedings of MEDINFO 2010, pp. 964–968. –
PMID: 20841827.
Hamon (Thierry), Engström (Christopher) et Silvestrov (Sergei). –
Term ranking adaptation to the domain: genetic algorithm based optimisation of the C-Value. In :
Proceedings of PolTAL 2014 – Advances in Natural Language Processing, éd. par Springer , pp. 71–83.
Hamon (Thierry) et Gagnayre (RÃ©mi). –

Improving knowledge of patient skills thanks to automatic analysis of online discussions. Patient Education
and Counseling, 2013. –
Special section on Health Communication and Artificial Intelligence (IF: 2.305, 5yIF: 2.929).
Hamon (Thierry) et Grabar (Natalia). –

Exploring Graph Structure for Detection of Reliability Zones within Synonym Resources: Experiment with
the Gene Ontology. In : Proceedings of BioNLP’2009 – Workshop of NAACL-HLT 2009. –
Boulder, Colorado, June 2009.
Hamon (Thierry) et Grabar (Natalia). –

Adaptation of Cross-Lingual Transfer Methods for the Building of Medical Terminology in Ukrainian. In :
Proceedings of the 17th International Conference on Intelligent Text Processing and Computational
Linguistics (CICLING2016). –
Springer.
Hamon (Thierry). –
Rapport de Stage à l’UQAM - 19 juin - 21 juillet 2000, octobre 2000.
Acquisition terminologique pour identifier les mots clés d’articles scientifiques. In : Actes de l’atelier DEFT
2012, pp. 25–31. –
115/115
Données textuelles
Grenoble, France, Juin 2012.
Indexation automatique de notices bibliographiques à l’aide d’approches d’acquisition terminologique. In :
Actes de DEFT 2016, pp. 20–26. –
Paris, France, Juillet 2016. Atelier de la conférence JEP-TALN-RECITAL 2016.
Neifar (Wafa), Hamon (Thierry), Zweigenbaum (Pierre), Khemakhem (Mariem Ellouze) et Belguith
(Lamia Hadrich). –
Adaptation of a Term Extractor to Arabic Specialised Texts: First Experiments and Limits. In : Proceedings
of the 17th International Conference on Intelligent Text Processing and Computational Linguistics
(CICLING2016), éd. par Springer .
Périnet (Amandine), Grabar (Natalia) et Hamon (Thierry). –

Identification des assertions dans les textes médicaux : application à la relation {patient, problème
médical}. Traitement Automatique des Langues (TAL), vol. 52 (1), 2011, pp. 97–132.
115/115

Introduction To Natural Language Processing FdT-Cours1-IntroNLP-FdT

Uploaded by

Copyright:

Available Formats

You might also like

Introduction To Natural Language Processing FdT-Cours1-IntroNLP-FdT

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Introduction To Natural Language Processing FdT-Cours1-IntroNLP-FdT

Uploaded by

Copyright:

Available Formats

Text Mining

Introduction to Natural Language Processing (NLP)

Institut Galilée - Université Paris 13,Villetaneuse, France

Articulation d’outils de TAL [Hamon et al. 2007]

Identifier des compétences requises par des programmes

10 séances (15h) de cours

History and context

The very beginning

Context: Back in the fifties (cold war)

The mythological tests/jokes

The mythological tests/jokes

The mythological tests/jokes

The mythological tests/jokes

Literal translation (word for word translation) is inappropriate

The linguistic underside

The linguistic underside

The (in)famous ”ALPAC report”

Consequences: lower budget for machine translation

Two main fields

1965 Natural Language Processing

50-60 years later

Phonetics, phonology, prosody

50-60 years later

Phonetics Morphology Syntax Semantics Pragmatics

Pronunciation inflected form Syntactic Semantic network

Syllabation derivation lexicon Semantic lexicon

Speech Recognition Part−of−speech tagging Text structure

Speech synthesis Extraction of semantic units Anaphora

Around the world

ACL: Association for computational linguistics

How to deal with the processing of natural language data?

(Ferdinand de Saussure, Cours de linguistique générale, 1916)

How to deal with the processing of natural language data?

(Ferdinand de Saussure, Cours de linguistique générale, 1916)

How to deal with the processing of natural language data?

(Ferdinand de Saussure, Cours de linguistique générale, 1916)

How to deal with the processing of natural language data?

Several types of linguistic information help to go from one

How to deal with the processing of natural language data?

Query to a kiosk to get train schedule (by the mean of human

Location: Paris station

Question: What time is the first train to Lille, tomorrow morning?

How to deal with the processing of natural language data

Speech processing and recognition

Computing of the speech signal to the words of the question

(Phonetics and phonology)

Phonetics and Phonology

Phonetics: study of the sound of human speech (phones)

How to deal with the processing of natural language data

What[what,WDT] time[time,NN:n,sg] is[be,VBZ:3,sg,ind,pres] the[the,DT]

How to deal with the processing of natural language data

What[what,WDT] time[time,NN:n,sg] is[be,VBZ:3,sg,ind,pres] the[the,DT]

How to deal with the processing of natural language data

What[what,WDT] time[time,NN:n,sg] is[be,VBZ:3,sg,ind,pres] the[the,DT]

How to deal with the processing of natural language data

What[what,WDT] time[time,NN:n,sg] is[be,VBZ:3,sg,ind,pres] the[the,DT]

How to deal with the processing of natural language data

Parsing (syntactic analysis)