Introduction To Natural Language Processing FdT-Cours1-IntroNLP-FdT

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 183

Text Mining

Introduction to Natural Language Processing (NLP)

Thierry Hamon

Institut Galilée - Université Paris 13,Villetaneuse, France


&
LIMSI-CNRS, Orsay, France
hamon@limsi.fr
https://perso.limsi.fr/hamon/Teaching/P13/FDT-2018-2019/

January-March 2019
Université Paris 13 - M2EIDD

1/115
Ma recherche
Domaine : Traitement Automatique des Langues
appliqué aux domaines de spécialité (électricité, médecine,
risque chimique, etc.)
sur des textes en français, anglais, ukrainien, arabe
Proposition d’approches pour
Constitution et enrichissement de ressources terminologiques
Articulation d’outils de TAL
Extraction et recherche d’information
Type de données textuelles : bases bibliographiques,
documents techniques, dossiers patients, articles scientifiques,
forums de discussion, etc.
Développement d’outils en Perl (modules CPAN)

2/115
Ma recherche
Constitution et enrichissement de ressources terminologiques
Exploration de corpus textuels
Extraction de termes : YATEA
[Aubin et Hamon 2006, Hamon et al. 2014, Neifar et al. 2016,
Hamon et Grabar 2016]
Acquisition de relations sémantiques : SynoTerm
[Hamon 2000, Grabar et al. 2008, Hamon et Grabar 2009]
Application : Identification automatique de mots-clés d’articles
[Hamon 2012, Hamon 2016]

Articulation d’outils de TAL [Hamon et al. 2007]


Définition d’une plate-forme modulaire combinant des outils
de TAL pour annoter des documents avec des informations
linguistiques

3/115
Ma recherche
Extraction et recherche d’information
Fouille de dossiers patients (en anglais) :
Identification des maladies, des médicaments et des traitements
mais aussi des relations entre eux et de leur niveau de certitude
[Grabar et Hamon 2009, Hamon et al. 2010, Périnet et al. 2011]
Fouille de données bibliographiques :
Collecte des facteurs de risque associés aux maladies
[Hamon et al. 2010]
Collecte ciblée de documents sur le Web [Gollub et al. 2007]
Intégration d’informations linguistiques dans le moteur de
recherche de l’intranet [Grabar et al. 2009]
Fouille de forums de discussion [Hamon et Gagnayre 2013]

Identifier des compétences requises par des programmes


d’éducation thérapeutique
Identification des informations démographiques

4/115
Organisation

Organisation

10 séances (15h) de cours


Introduction au Traitement Automatique des Langues
Principe de la fouille de données textuelles
Méthodologies d’extraction d’information à partir de textes
Outils pour la mise en place de systèmes de fouille de textes
10 séances (15h) de TP

5/115
Organisation

Plan

History and context


Example
Introduction to NLP approaches
Formal language vs. Natural language

6/115
History and Context

The very beginning

Context: Back in the fifties (cold war)


Main application: Machine translation
use of computers to translate texts or messages from one
(source) language to a other language (target language)
Budget: about $20 millions in 10 years

7/115
History and Context

The mythological tests/jokes


Translation of the Biblical sentence
The spirit is willing, but the flesh is weak
or
Out of sight, out of mind

Translation in Russian

8/115
History and Context

The mythological tests/jokes


Translation of the Biblical sentence
The spirit is willing, but the flesh is weak
or
Out of sight, out of mind

Translation in Russian
and then in English

8/115
History and Context

The mythological tests/jokes


Translation of the Biblical sentence
The spirit is willing, but the flesh is weak
or
Out of sight, out of mind

Translation in Russian
and then in English
The vodka is strong, but the meat is rotten
Invisible idiot

8/115
History and Context

The mythological tests/jokes


Translation of the Biblical sentence
The spirit is willing, but the flesh is weak
or
Out of sight, out of mind

Translation in Russian
and then in English
The vodka is strong, but the meat is rotten
Invisible idiot

Literal translation (word for word translation) is inappropriate


(problem with idioms)
More information is needed

8/115
History and Context

The linguistic underside

Requirements :
Machine readable dictionaries
Syntactic information (order and function of the words)
Problems:
Ambiguities, polysemy, ...
Complex syntactic structures,
Semantics (relations, categories, ...)
Anaphora, ...

9/115
History and Context

The linguistic underside

Requirements :
Machine readable dictionaries
Syntactic information (order and function of the words)
Problems:
Ambiguities, polysemy, ...
Complex syntactic structures,
Semantics (relations, categories, ...)
Anaphora, ...
→ Need of (a lot of) context

9/115
History and Context

The (in)famous ”ALPAC report”


In 1966, by the US National Academy of the Sciences
Y. Bar-Hillel
Complete machine translation: slow, time consuming, with a
low quality
could be more expensive than human translators
Machine Translation is hopeless (!)
Recommendations:
Evaluation of the translations (quality and cost)
Machine-aided translation
More efforts on the computational linguistic research
For machine translation or not

Consequences: lower budget for machine translation


but the beginning of the Natural Language Processing (NLP)

10/115
History and Context

Contributions
Interdisciplinary research field:
Linguistics
Phonology
Generative grammars
Syntax
Philosophy of language
Mathematics:
Logic
Formal language theory
Statistics
Computer science
Algorithms
Software engineering
Machine learning

11/115
History and Context

Research fields

Two main fields


1960 Computational linguistics
Focus on mathematics and linguistics

1965 Natural Language Processing


Focus on algorithms for software development
1970 Natural Language Understanding (AI)
Cognitive approaches
T Winograd, M Minski, J Allen, ...

12/115
History and Context

50-60 years later

Phonetics, phonology, prosody


Morphology
Syntax
Semantics
Pragmatics

13/115
History and Context

50-60 years later

Phonetics Morphology Syntax Semantics Pragmatics

Pronunciation inflected form Syntactic Semantic network


Resources

Syllabation derivation lexicon Semantic lexicon


Prosody composition Terminology Desambiguisation rules

lexique.org, ... MorTAL, Celex, ... LTAG, FTAG, LFG, ... WordNet, DEC, ...

Speech Recognition Part−of−speech tagging Text structure


Syntactic analysis
Tasks

Speech synthesis Extraction of semantic units Anaphora


(text speech) Chunking Communication
(simples, complexes)
Morphological segmentation Relation acquistion
Morphological analysis Decomposition en primitives
Definition analysis

Speech recognition Spell checking Man machine dialogue Corpus Linguistics Resource building Text Generation
Applications

Terminology
Stylistics Ontology
Weather forecast, report, ... Statistical NLP Natural Language Generation
Automatic summarization
MT (Machine Translation)
CAT (Computer−assisted Translation)
IR (Information Retrieval) IE/TM (Information Extraction/Text Mining)
QA (Question Answering)

14/115
History and Context

NLP Applications

Machine Translation
Information Retrieval
Text mining (Information Extraction)
Question Answering
Dialogue, Text Generation (ChatBot)
Social network analysis (Tweets, Forum, etc.)
Lexical/linguistic/terminological resource building
...
on general-purpose or domain-specific texts

15/115
History and Context

Around the world

ACL: Association for computational linguistics


Journals: Computational LinguisticsL, JNLE, ...
Conferences: ACL, COLING, EACL, NNACL, LREC, ...
Web site: http://www.aclweb.org
Mailing list: linguist, corpora
Universities and research centers (JRC in Europ)
Compagnies (Xerox, IBM, Microsoft, Lingsoft, etc.)

16/115
History and Context

France
ATALA: Association pour le traitement automatique des
langues
TAL: revue
TALN, RECITAL, TALS, TALC, JEP, ...: conférences
Site Web : http://www.atala.org
Liste de diffusion : ln
Rapprochement TAL & IA
Journées communes ATALA/AFIA
Plateforme AFIA 2019 : inclusion de TALN-RECITAL 2019
Filières de formations
Nombreux laboratoires
Besoins en entreprise
Enjeux toujours réels

17/115
Example

How to deal with the processing of natural language data?


Natural langage : system composed of signs, used to produce
a utterance
Words are basic signs of a language
A word is made of two sides

(Ferdinand de Saussure, Cours de linguistique générale, 1916)

18/115
Example

How to deal with the processing of natural language data?


Natural langage : system composed of signs, used to produce
a utterance
Words are basic signs of a language
A word is made of two sides
Phonologic form (the signifier – train)

(Ferdinand de Saussure, Cours de linguistique générale, 1916)

18/115
Example

How to deal with the processing of natural language data?


Natural langage : system composed of signs, used to produce
a utterance
Words are basic signs of a language
A word is made of two sides
Phonologic form (the signifier – train)
Meaning (the signified - the mental picture of the train)

(Ferdinand de Saussure, Cours de linguistique générale, 1916)

18/115
Example

How to deal with the processing of natural language data?

Several types of linguistic information help to go from one


side to the other
Those types of linguistic information are more or less
autonomous
Each interacts with others

19/115
Example

How to deal with the processing of natural language data?


Example

Query to a kiosk to get train schedule (by the mean of human


speech)

Location: Paris station

Question: What time is the first train to Lille, tomorrow morning?

20/115
Example

How to deal with the processing of natural language data


First step

Speech processing and recognition

Computing of the speech signal to the words of the question

(Phonetics and phonology)

21/115
Example

Phonetics and Phonology

Phonetics: study of the sound of human speech (phones)


From the physical point of view
More related to Speech processing
Phonology: Study of the groups of sound to make words or
utterances in a natural language
From the linguistic point of view (phonemes)
Organisation of the sounds, syllabs, rhymes, etc.
Related to the meaning
The both also include the study of sign languages

22/115
Example

How to deal with the processing of natural language data


Second step

Morphological analysis
Description of the words regarding their form (morpheme)
Recognition of the

What[what,WDT] time[time,NN:n,sg] is[be,VBZ:3,sg,ind,pres] the[the,DT]


first[first,ADJ:num,ord] train[train,NN:sg] to[to,PREP] Lille[Lille,NAM] ,
tomorrow[tomorrow,NN:sg] morning[morning,NN:sg]?

23/115
Example

How to deal with the processing of natural language data


Second step

Morphological analysis
Description of the words regarding their form (morpheme)
Recognition of the
Canonical form (dictionary entry)

What[what,WDT] time[time,NN:n,sg] is[be,VBZ:3,sg,ind,pres] the[the,DT]


first[first,ADJ:num,ord] train[train,NN:sg] to[to,PREP] Lille[Lille,NAM] ,
tomorrow[tomorrow,NN:sg] morning[morning,NN:sg]?

23/115
Example

How to deal with the processing of natural language data


Second step

Morphological analysis
Description of the words regarding their form (morpheme)
Recognition of the
Canonical form (dictionary entry)
Part of speech (grammatical category)

What[what,WDT] time[time,NN:n,sg] is[be,VBZ:3,sg,ind,pres] the[the,DT]


first[first,ADJ:num,ord] train[train,NN:sg] to[to,PREP] Lille[Lille,NAM] ,
tomorrow[tomorrow,NN:sg] morning[morning,NN:sg]?

23/115
Example

How to deal with the processing of natural language data


Second step

Morphological analysis
Description of the words regarding their form (morpheme)
Recognition of the
Canonical form (dictionary entry)
Part of speech (grammatical category)
Inflectional parameters (gender, number, ...)

What[what,WDT] time[time,NN:n,sg] is[be,VBZ:3,sg,ind,pres] the[the,DT]


first[first,ADJ:num,ord] train[train,NN:sg] to[to,PREP] Lille[Lille,NAM] ,
tomorrow[tomorrow,NN:sg] morning[morning,NN:sg]?

23/115
Example

How to deal with the processing of natural language data


Third step

Parsing (syntactic analysis)


Combination of the words to make sentences
Two points of view:
Recognition of
The constituents of the sentence (noun phrases, verbal
phrases, adjectival phrases, ...)
The dependency between the words (modifier of a noun,
subject of a verb, ...

24/115
Example

How to deal with the processing of natural language data


Third step

(output of the Stanford parser)

det(time-2, What-1)
attr(is-3, time-2)
det(train-6, the-4)
amod(train-6, first-5)
nsubj(is-3, train-6)
prep_to(train-6, Lille-8)
nn(morning-11, tomorrow-10)
appos(Lille-8, morning-11)

25/115
Example

How to deal with the processing of natural language data


Third step
(output of the Stanford parser)

(ROOT
(SBARQ
(WHNP (WDT What) (NN time))
(SQ (VBZ is)
(NP
(NP (DT the) (JJ first) (NN train))
(PP (TO to)
(NP
(NP (NNP Lille))
(, ,)
(NP (NN tomorrow) (NN morning))))))
(? ?)))

26/115
Example

How to deal with the processing of natural language data


Fourth step

Semantic analysis
Identification of the
meaning of the words or phrases
semantic relations between them
Without taking into account the context
Logic can be used to represent semantics of a sentence

27/115
Example

How to deal with the processing of natural language data


Fourth step

train → object, mode of transportation


first → first answer
first train?
Lille → Location/City/railway station/direction/destination (Lille
Flandre, Lille Europe ?)
What time → Hour?
Tomorrow → (next day) Today + 1 day (1st of February, 2019)
morning → (daytime, day period) 8H00-12h00? 7H00-12H00?
before noon? before 8h?
...

28/115
Example

How to deal with the processing of natural language data


Fifth step

Pragmatics
Semantic interpretation of the sentence according to the
context
Contextual information:
departure? (Paris - Paris Gare du Nord, Paris Charles-de-Gaulle
Roissy Airport)
date (today)? (31th of January, 2019)
the results are sort by time (of departure)
need of the schedule
but also, reference resolution (anaphora)

29/115
Example

How to deal with the processing of natural language data


Fifth step

Translation in SQL query: ad-hoc methods or compilation methods


SELECT MIN ( s t a r t H o u r ) FROM t r a i n WHERE
d e p a r t u r e D a y= ’ 01/02/2019 ’
AND d e p a r t u r e L o c a t i o n= ’ P a r i s ’
AND a r r i v a l L o c a t i o n= ’ L i l l e ’
AND d e p a r t u r e H o u r < 1 2 : 0 0 AND d e p a r t u r e H o u r > 7 : 0 0 ;

(The answer is 7:04)

30/115
Example

How to deal with the processing of natural language data


Comments
In the real, the kiosk could need more information
(need of a human/machine dialogue)

What I didn’t say/ask (yet?):


Direct train
Track (at Paris and/or Lille)
Travel time
Class
Buy a ticket
Return ticket
Price
Rebookable or not, Refundable
For adult or child
Number of tickets

31/115
Example

How to deal with the processing of natural language data


here and back again

Answer generation
Translation of the query result into a textual form
The first train to Lille is at 7:40, tomorrow
In case of spoken answer, speech synthesis of the text

32/115
Example

How to deal with the processing of natural language data?

Two directions:
Analysis of language data (textual data or human speech)
towards (more or less) the understanding of the message
Generation of language data (textual data or speech synthesis)
towards a linguistic realisation
Usually, NLP deals with the sentences

33/115
Formal language vs. Natural language

Formal language vs. Natural language


Formal language L:

(possibly infinite) set of words Σ∗


over a finite alphabet of symbols Σ
word: finite sequence of symbols of the alphabet
(syntactic) rules used to decide if a word belong to L
typical examples: regular expression, context-free grammar

Formal language:
raw approximation of natural language
tool for analysing texts

34/115
Formal language vs. Natural language

Formal language vs. Natural language

Formal language:
concatenation of symbols to make the words of the language
(possibly infinitely)
words have two sides: form and meaning
Natural language:
words are concatenated to make utterances/sentences
(possibly infinitely)
sentences have two sides: sound (or string) and meaning
→ Formalisation of grammars for Natural Language (Chomsky
1956)

35/115
Formal language vs. Natural language

Formal language vs. Natural language

But...
Ambiguities:
Avoid/rejected by formal languages

Very important in natural languages (several linguistic


structures can be associated to a sentence)

36/115
Formal language vs. Natural language

Formal language vs. Natural language

Ambiguity appears at any linguistic levels:


phonologic: I scream / Ice cream
lexical: (river) bank / bank (financial institution)
unlockable (impossible to lock / possible to unlock)
saw (to see / to saw)
syntactic: Mary ate a salad with spinach
Mary ate a (salad with spinach)
Mary (ate a salad) with spinach

37/115
Formal language vs. Natural language

Formal language vs. Natural language

semantic:
The police were ordered to stop drinking after midnight.
A sailor was dancing with a wooden leg.
Teacher strikes idle kids
anaphoric:
Margaret invited Susan for a visit, and she gave her a good
lunch.
→ All the above sentences can be correct
(but one meaning can be most probable than the other)

The interpretation depends on the context

38/115
Introduction to NLP

How to deal with the processing of natural language data?

Two paradigms for processing texts:


Symbolic paradigm: extraction of linguistic information with
symbolic information or linguistic resources
Use of dictionary, grammars, rules
Stochastic paradigm: use of stochastic approaches to extract
linguistic information from textual corpora
Use of machine learning (classification, decision trees, ...)
The both can be mixed

39/115
Introduction to NLP

Introduction
(Méthode/Outils de) Traitement Automatique des Langues :
Analyse de données textuelles
Détection d’éléments textuels
Identification de leurs propriétés
Mise en relation des éléments identifiés
Données non-structurées
Textes libres, rédigés en langage naturel
Diversité des contenus, qualité rédactionnelle variable
Pas de structure logique explicite, au sens informatique du
terme
Mélange d’information de différents types (dates, valeurs
numériques, lieux, noms de personne, etc.)
Pré-traitements nécessaires

40/115
Introduction to NLP

Raw text
Medline abstract
1: Biosci Biotechnol Biochem. 2003 Aug;67(8):1825-7. Related Articles, Links

Comparative Analyses of Hairpin Substrate Recognition by


Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological


Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of


the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.

PMID: 12951523 [PubMed - in process]


41/115
Introduction to NLP

Pre-processing

Cleaning of the texts (HTML markup)


Homogenisation of the encoding charset
Extra-linguistic normalisation
duplicated blank characters
hyphenation
font marks
typographic ligatures: difference, specific
long dash: – (--)
...

42/115
Introduction to NLP

Analyse de données textuelles


Présentation dees tâches d’annotation suivantes :
Etiquetage morpho-syntaxique et lemmatisation
Reconnaissance d’entités nommées
Extraction de termes
Analyse syntaxique
Extraction de relations sémantiques
Sans oublier
Résolution de coréférence
Systèmes de dialogue
Recherche de réponses à des questions
Génération de textes
Résumé automatique
Extraction de mots-clés
Traduction automatique

43/115
Introduction to NLP

Texte initial

Two weeks ago , the patient was started on metoprolol 12.5 mg p.o.

q.6 h. for rate control .

The patient has a history of atrial fibrillation with a slow ventricular response .

44/115
Introduction to NLP

Segmentation en mots et en phrases

Two weeks ago , the patient was started on metoprolol 12.5 mg p.o.

q.6 h. for rate control .

The patient has a history of atrial fibrillation with a slow ventricular response .

Identification des mots et des phrases


Tâche généralement intégrée aux outils d’étiquetage
morpho-syntaxique, de lemmatisation ou de reconnaissance d’entités
nommées

44/115
Introduction to NLP

Etiquetage morpho-syntaxique et lemmatisation


https://aclweb.org/aclwiki/POS_Tagging_(State_of_the_art)

Two week ago , the patient be start on metoprolol 12.5 mg p.o.


CD NNS RB DT NN VBD VBN IN FW CD NN SYM

q.6 h. for rate control .


FW NP IN NN NN

The patient have a history of atrial fibrillation with a slow ventricular response .
DT NN VBZ DT NN IN JJ NN IN DT JJ JJ NN

Deux tâches pouvant être couplées


De nombreux jeux d’étiquettes morpho-syntaxiques

44/115
Introduction to NLP

Reconnaissance d’entités nommées


https://aclweb.org/aclwiki/Named_Entity_Recognition_(State_of_the_art)
[TIMEX3] [DRUG] [DOSAGE] [MODADM]

Two week ago , the patient be start on metoprolol 12.5 mg p.o.


CD NNS RB DT NN VBD VBN IN FW CD NN SYM

[FREQ]

q.6 h. for rate control .


FW NP IN NN NN

The patient have a history of atrial fibrillation with a slow ventricular response .
DT NN VBZ DT NN IN JJ NN IN DT JJ JJ NN

Généralement :

reconnaissance des noms propres, des valeurs numériques, etc.


utilisation d’un texte étiqueté et lemmatisé

45/115
Introduction to NLP

Extraction de termes
[TIMEX3] [DRUG] [DOSAGE] [MODADM]

Two week ago , the patient be start on metoprolol 12.5 mg p.o.


CD NNS RB DT NN VBD VBN IN FW CD NN SYM

[FREQ] [DISORDER]

q.6 h. for rate control .


FW NP IN NN NN

[DISORDER] [DISORDER]

The patient have a history of atrial fibrillation with a slow ventricular response .
DT NN VBZ DT NN IN JJ NN IN DT JJ JJ NN

Utilisation sur des textes issus de domaines de spécialité


Identification des groupes nominaux correspondant à des notions d’un
domaine
Types sémantiques associés lorsque les termes sont issus d’une ressource
terminologique

46/115
Introduction to NLP

Analyse syntaxique
https://aclweb.org/aclwiki/Parsing_(State_of_the_art)

Construction de l’arbre syntaxique des phrases


Deux types d’analyse : en dépendances ou en constituants

47/115
Introduction to NLP

Analyse syntaxique
https://aclweb.org/aclwiki/Parsing_(State_of_the_art)
Exemple d’analyse en constituants :

48/115
Introduction to NLP

Extraction de relations sémantiques

Extraction d’événement à partir de textes biomédicaux


Basé sur une analyse syntaxique, un classifieur SVM et un
post-traitement sémantique à base de règles
Exemple :

(issu de
Turku Event Extraction System (TEES)

http://jbjorne.github.io/TEES/)

49/115
Introduction to NLP

Plateformes de TAL

La plupart des outils intègrent plusieurs traitements, mais


ils sont dédiés à une tâche en particulier
ils n’offrent pas vraiment la possibilité d’agencer des outils de
TAL ou d’intégrer des ressources suivant les besoins applicatifs
Nombreuses platformes disponibles
Interopérabilité entre des outils de TAL existants ou
réimplementation de méthodes
Réflexion sur les formats de stockage des annotations (souvent
déportées)
Proposition des API

50/115
Introduction to NLP

Plateformes de TAL
GATE http://gate.ac.uk/
UIMA http://uima.apache.org/
NLTK http://www.nltk.org/
Stanford coreNLP https://stanfordnlp.github.io/CoreNLP/
LingPipe http://alias-i.com/lingpipe/
OpenNLP http://incubator.apache.org/opennlp/
Treex ufal.mff.cuni.cz/treex
Lima https://github.com/aymara/lima/wiki
Ogmios http://search.cpan.org/~thhamon/Lingua-Ogmios/
Plateforme Alvis (INRA)
http://bibliome.jouy.inra.fr/demo/ontobio/alvisir2/webapi/search
FreeLing http://nlp.lsi.upc.edu/freeling/
NLPCube http://opensource.adobe.com/NLP-Cube/index.html

51/115
Introduction to NLP

Ressources

Fournissent les informations linguistiques nécessaires aux


outils de TAL
Liste de mots « vides »
Ressources lexicales
Ressources terminologiques
Réseaux sémantiques
Lexiques divers (émotions, etc.)
Mais aussi des corpus annotés

52/115
Introduction to NLP

Ressources pour le TAL


Lexiques :
DELA http://infolingu.univ-mlv.fr/DonneesLinguistiques/
Dictionnaires/telechargement.html
Morphalou http://www.cnrtl.fr/lexiques/morphalou/
Lefff http://alpage.inria.fr/~sagot/lefff.html
GLAFF http://redac.univ-tlse2.fr/lexiques/glaff.html
GLAWI http://redac.univ-tlse2.fr/lexiques/glawi.html
Autres ressources linguistiques :
FrameNet https://framenet.icsi.berkeley.edu/fndrupal/
WoNef https://wonef.fr/
UMLS https://uts.nlm.nih.gov/home.html
Corpus :
Penn Treebank http://www.cis.upenn.edu/~treebank/
French TreeBank http://ftb.linguist.univ-paris-diderot.fr/

53/115
Introduction to NLP

Bilan

Nombreux outils pour les différentes tâches du TAL


Assez peu interopérables directement (formats et jeux
d’étiquettes différents)
Mais très souvent : intégration de plusieurs tâches de TAL en
amont de la finalité de l’outil
Plusieurs plateformes de TAL pour des utilisateurs et des
applications variées
Accès aux tâches d’analyse de données textuelles dans des
applications à « moindre coût »

54/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes

Constat : prépondérance des données non-structurées


plus 90% des données produites en 2011 (sur 1.8 trillion de
gigaoctets) [Oracle, 2011]
85% des données d’entreprise
Données non-structurées : des textes
Importante source d’informations
Mais la lecture est coûteuse en temps, voir impossible
Besoin d’aller au-delà de la recherche de documents

55/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes

Constat : prépondérance des données non-structurées


plus 90% des données produites en 2011 (sur 1.8 trillion de
gigaoctets) [Oracle, 2011]
85% des données d’entreprise
Données non-structurées : des textes
Importante source d’informations
Mais la lecture est coûteuse en temps, voir impossible
Besoin d’aller au-delà de la recherche de documents
Accèder à ces informations nécessite de fouiller les textes
automatiquement

55/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures

Pages Web, blogs, forums, emails


Documents techniques, rapports produits dans les entreprises

Livres, Bibliothèques numériques, articles scientifiques


Enquête de consommateurs, Lettres de plaintes de consommateurs
Dossiers patients (examens médicaux, lettres de médecin, compte-rendus,
etc. )
Rapports d’interaction entre médicaments, de décès
Rapports d’incidents, constats d’accident
Dépêches, articles de journaux

...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Pages Web, blogs, forums, emails
Documents techniques, rapports produits dans les entreprises

Livres, Bibliothèques numériques, articles scientifiques


Enquête de consommateurs, Lettres de plaintes de consommateurs
Dossiers patients (examens médicaux, lettres de médecin, compte-rendus,
etc. )
Rapports d’interaction entre médicaments, de décès
Rapports d’incidents, constats d’accident
Dépêches, articles de journaux

...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Analyse d’opinion, de comportement, filtrage des spams
Documents techniques, rapports produits dans les entreprises

Livres, Bibliothèques numériques, articles scientifiques


Enquête de consommateurs, Lettres de plaintes de consommateurs
Dossiers patients (examens médicaux, lettres de médecin, compte-rendus,
etc. )
Rapports d’interaction entre médicaments, de décès
Rapports d’incidents, constats d’accident
Dépêches, articles de journaux

...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Analyse d’opinion, de comportement, filtrage des spams
Analyse d’incidents, Constitution d’une mémoire d’entreprise, Aide à la
rédaction, Analyse du besoin, Formalisation de spécifications
Livres, Bibliothèques numériques, articles scientifiques
Enquête de consommateurs, Lettres de plaintes de consommateurs
Dossiers patients (examens médicaux, lettres de médecin, compte-rendus,
etc. )
Rapports d’interaction entre médicaments, de décès
Rapports d’incidents, constats d’accident
Dépêches, articles de journaux

...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Analyse d’opinion, de comportement, filtrage des spams
Analyse d’incidents, Constitution d’une mémoire d’entreprise, Aide à la
rédaction, Analyse du besoin, Formalisation de spécifications
Agrégation de données, Structuration de connaissances, Aide à la décision
Enquête de consommateurs, Lettres de plaintes de consommateurs
Dossiers patients (examens médicaux, lettres de médecin, compte-rendus,
etc. )
Rapports d’interaction entre médicaments, de décès
Rapports d’incidents, constats d’accident
Dépêches, articles de journaux

...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Analyse d’opinion, de comportement, filtrage des spams
Analyse d’incidents, Constitution d’une mémoire d’entreprise, Aide à la
rédaction, Analyse du besoin, Formalisation de spécifications
Agrégation de données, Structuration de connaissances, Aide à la décision
Etude des tendances, analyse d’opinion, rapports d’incidents
Dossiers patients (examens médicaux, lettres de médecin, compte-rendus,
etc. )
Rapports d’interaction entre médicaments, de décès
Rapports d’incidents, constats d’accident
Dépêches, articles de journaux

...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Analyse d’opinion, de comportement, filtrage des spams
Analyse d’incidents, Constitution d’une mémoire d’entreprise, Aide à la
rédaction, Analyse du besoin, Formalisation de spécifications
Agrégation de données, Structuration de connaissances, Aide à la décision
Etude des tendances, analyse d’opinion, rapports d’incidents
Aide à la décision médicale, Aide à la lecture, Codage et facturation des
interventions
Rapports d’interaction entre médicaments, de décès
Rapports d’incidents, constats d’accident
Dépêches, articles de journaux

...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Analyse d’opinion, de comportement, filtrage des spams
Analyse d’incidents, Constitution d’une mémoire d’entreprise, Aide à la
rédaction, Analyse du besoin, Formalisation de spécifications
Agrégation de données, Structuration de connaissances, Aide à la décision
Etude des tendances, analyse d’opinion, rapports d’incidents
Aide à la décision médicale, Aide à la lecture, Codage et facturation des
interventions
Etude épidémiologique, rédaction de RCP, Pharmacovigilance
Rapports d’incidents, constats d’accident
Dépêches, articles de journaux

...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Analyse d’opinion, de comportement, filtrage des spams
Analyse d’incidents, Constitution d’une mémoire d’entreprise, Aide à la
rédaction, Analyse du besoin, Formalisation de spécifications
Agrégation de données, Structuration de connaissances, Aide à la décision
Etude des tendances, analyse d’opinion, rapports d’incidents
Aide à la décision médicale, Aide à la lecture, Codage et facturation des
interventions
Etude épidémiologique, rédaction de RCP, Pharmacovigilance
Analyse du risque, Estimation de coûts, aide à la décision
Dépêches, articles de journaux

...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Analyse d’opinion, de comportement, filtrage des spams
Analyse d’incidents, Constitution d’une mémoire d’entreprise, Aide à la
rédaction, Analyse du besoin, Formalisation de spécifications
Agrégation de données, Structuration de connaissances, Aide à la décision
Etude des tendances, analyse d’opinion, rapports d’incidents
Aide à la décision médicale, Aide à la lecture, Codage et facturation des
interventions
Etude épidémiologique, rédaction de RCP, Pharmacovigilance
Analyse du risque, Estimation de coûts, aide à la décision
Analyse d’opinion, Aide à la lecture ou à la décision, prédiction de
mouvements financiers
...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de Textes


Des textes de différentes natures contenant des informations utiles dans de
nombreux cadres applicatifs
Analyse d’opinion, de comportement, filtrage des spams
Analyse d’incidents, Constitution d’une mémoire d’entreprise, Aide à la
rédaction, Analyse du besoin, Formalisation de spécifications
Agrégation de données, Structuration de connaissances, Aide à la décision
Etude des tendances, analyse d’opinion, rapports d’incidents
Aide à la décision médicale, Aide à la lecture, Codage et facturation des
interventions
Etude épidémiologique, rédaction de RCP, Pharmacovigilance
Analyse du risque, Estimation de coûts, aide à la décision
Analyse d’opinion, Aide à la lecture ou à la décision, prédiction de
mouvements financiers
Mais aussi : détection de plagiat/attribution d’auteurs,
analyse/comparaison de brevets
...

56/115
Introduction à la Fouille de Textes

Introduction à la Fouille de données textuelles


Objectif :
Extraire des textes, les connaissances non-triviales et intéressantes
C’est-à-dire :
Extraire les informations

57/115
Introduction à la Fouille de Textes

Introduction à la Fouille de données textuelles


Objectif :
Extraire des textes, les connaissances non-triviales et intéressantes
C’est-à-dire :
Extraire les informations
utiles pour une tâche donnée

57/115
Introduction à la Fouille de Textes

Introduction à la Fouille de données textuelles


Objectif :
Extraire des textes, les connaissances non-triviales et intéressantes
C’est-à-dire :
Extraire les informations
utiles pour une tâche donnée
à partir de données textuelles, rédigées en langage naturel

57/115
Introduction à la Fouille de Textes

Introduction à la Fouille de données textuelles


Objectif :
Extraire des textes, les connaissances non-triviales et intéressantes
C’est-à-dire :
Extraire les informations
utiles pour une tâche donnée
à partir de données textuelles, rédigées en langage naturel
Regrouper et mettre en relation ces informations

57/115
Introduction à la Fouille de Textes

Introduction à la Fouille de données textuelles


Objectif :
Extraire des textes, les connaissances non-triviales et intéressantes
C’est-à-dire :
Extraire les informations
utiles pour une tâche donnée
à partir de données textuelles, rédigées en langage naturel
Regrouper et mettre en relation ces informations
Transformer du texte en connaissances utiles pour une analyse
donnée
Alimentation de bases de données ou des bases de connaissances

57/115
Introduction à la Fouille de Textes

Introduction à la Fouille de données textuelles


Objectif :
Extraire des textes, les connaissances non-triviales et intéressantes
C’est-à-dire :
Extraire les informations
utiles pour une tâche donnée
à partir de données textuelles, rédigées en langage naturel
Regrouper et mettre en relation ces informations
Transformer du texte en connaissances utiles pour une analyse
donnée
Alimentation de bases de données ou des bases de connaissances

Mais aussi, permettre indirectement la fouille de données sur des


données non-structurées

57/115
Introduction à la Fouille de Textes

Fouille de données vs. Fouille de textes


Data mining vs. Text mining

Fouille de données (data mining)


– Méthodes et algorithmes d’exploration des données structurées,
issues de bases de données, d’entrepôts de données
– Objectifs : Mise en évidence de règles, identification de
tendances, comportement invisible pour un humain

58/115
Introduction à la Fouille de Textes

Fouille de données vs. Fouille de textes


Data mining vs. Text mining

Fouille de données (data mining)


– Méthodes et algorithmes d’exploration des données structurées,
issues de bases de données, d’entrepôts de données
– Objectifs : Mise en évidence de règles, identification de
tendances, comportement invisible pour un humain
Fouille de textes (text mining)
– Méthodes d’exploitation de données non-structurées, présentes
dans des textes rédigés en langage naturel
– Objectifs : Extraction et catégorisation d’informations
présentes dans les textes

58/115
Introduction à la Fouille de Textes

Caractéristiques de la fouille de textes

Matériau initial : Corpus/collection de documents textuels


Connaissances sur la langue : Ressources linguistiques et
terminologiques
Accès aux informations linguistiques : Méthodes d’analyse
linguistique (TAL) plus ou moins sophistiquées
Regroupement des informations : Classification ou
catégorisation automatique des informations
Quantification des informations identifiées dans les
documents : Mesures de similarité
Prise en compte de la sémantique dans l’accès à l’information

59/115
Introduction à la Fouille de Textes

Domaines associés

La fouille de textes emprunte des méthodes ou s’appuie sur


plusieurs domaines :
Recherche d’information
Analyse lexicographique
Apprentissage automatique (supervisé ou non)
Traitement Automatique des Langues (TAL)
Statistiques
Visualisation de données, de l’information
...

60/115
Difficultés de la fouille de texte

Difficultés de la fouille de texte

Collection de données en texte libre


Données éparpillées, mal organisées, bruitées
structure différente d’un texte à l’autre
pas statistiquement indépendant
Données multilingues
Données non-structurées, au mieux semi-structurées
Volume de données textuelles important
Temps de traitement de données textuelles élevés

61/115
Difficultés de la fouille de texte

Difficultés de la fouille de texte

Importance du contexte dans l’accès à l’information


Ambiguïtés de la langue à tous les niveaux
Variation dans les énoncés similaires sémantiquement
Nombre élévé et imprévisible de dimensions possibles :
Tous les mots et expressions de la langue peuvent être présents
dans les textes (cf. accroissement du vocabulaire et Loi de
Zipf)
On peut aussi avec de nouveaux mots
acronymes, néologismes
noms de marque, de personnes, de lieux, des dates, etc.)
mots empruntés à d’autres langues

62/115
Difficultés de la fouille de texte

Courbe d’accroissement du vocabulaire


Corpus Menelas

63/115
Difficultés de la fouille de texte

Loi de Zipf
Soient les mots d’un corpus donné, le rang d’un mot correspond à
son nombre d’occurrence (dans l’ordre décroissant).
La loi de Zipf prévoit que le nombre d’occurrence d’un mot est
inversement proportionnel à son rang.

64/115
Difficultés de la fouille de texte

Répartition du nombre d’occurrences


Corpus Menelas

65/115
Difficultés de la fouille de texte

Répartition du nombre d’occurrences


Corpus Menelas

Echelle logarithmique
66/115
Difficultés de la fouille de texte

Difficultés de la fouille de texte


Ambiguïtés de la langue à tous les niveaux :
lexical :
avocat[fruit] vs. avocat[métier]
porte[N] vs. porte[V]
Apple[société] vs. apple[fruit]
syntaxique :
la route est déviée par la gendarmerie.
Sylvain a vu un homme avec un télescope.
sémantique :
une personne curieuse
L’homme descend du singe. Le singe descend de l’arbre
pragmatique :
Le professeur a envoyé l’élève chez le proviseur parce qu’il le
trouvait insupportable.
ce charmant patient

67/115
Difficultés de la fouille de texte

Difficultés de la fouille de texte

Variation dans les énoncés similaires sémantiquement :


Bayer rachète Monsanto
Monsanto est rachété par Bayer
Bayer et Monsanto fusionnent
Monsanto fusionne avec Bayer
fusion Monsanto-Bayer
Métonymie (le dernier Apple/Samsung)
Métaphore (Géant du Web, or noir)
Erreurs d’orthographe : Appel/Apple
...

68/115
Difficultés de la fouille de texte

Exemples de données textuelles


Résumé d’article scientifique

Comparative Analyses of Hairpin Substrate Recognition by


Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological


Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of


the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.

69/115
Difficultés de la fouille de texte

Exemples de données textuelles


Résumé d’article scientifique

Comparative Analyses of Hairpin Substrate Recognition by


Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological


Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of


the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.

Commentaires :

69/115
Difficultés de la fouille de texte

Exemples de données textuelles


Résumé d’article scientifique

Comparative Analyses of Hairpin Substrate Recognition by


Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological


Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of


the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.

Commentaires : Syntaxe correcte (ouf !)

69/115
Difficultés de la fouille de texte

Exemples de données textuelles


Résumé d’article scientifique

Comparative Analyses of Hairpin Substrate Recognition by


Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological


Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of


the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.

Commentaires : Syntaxe correcte (ouf !), phrases longues et complexes

69/115
Difficultés de la fouille de texte

Exemples de données textuelles


Résumé d’article scientifique

Comparative Analyses of Hairpin Substrate Recognition by


Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological


Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of


the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.

Commentaires : Abréviations

69/115
Difficultés de la fouille de texte

Exemples de données textuelles


Résumé d’article scientifique

Comparative Analyses of Hairpin Substrate Recognition by


Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological


Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of


the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.

Commentaires : Abréviations, vocabulaire et sémantique spécialisés

69/115
Difficultés de la fouille de texte

Exemples de données textuelles


Résumé d’article scientifique

Comparative Analyses of Hairpin Substrate Recognition by


Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological


Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of


the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.

Commentaires : Variation sémantique

69/115
Difficultés de la fouille de texte

Exemples de données textuelles


Message issues de forum de discussion

Sujet: galere pour initialiser un iphone 4


Auteur: tirando
Posté le 15-09-2016 à 11:52:13

Bonjour

On ma donne un iphone 4 desimlocker et a priori depareillé du compte


icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.

70/115
Difficultés de la fouille de texte

Exemples de données textuelles


Message issues de forum de discussion

Sujet: galere pour initialiser un iphone 4


Auteur: tirando
Posté le 15-09-2016 à 11:52:13

Bonjour

On ma donne un iphone 4 desimlocker et a priori depareillé du compte


icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.

Commentaires :

70/115
Difficultés de la fouille de texte

Exemples de données textuelles


Message issues de forum de discussion

Sujet: galere pour initialiser un iphone 4


Auteur: tirando
Posté le 15-09-2016 à 11:52:13

Bonjour

On ma donne un iphone 4 desimlocker et a priori depareillé du compte


icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.

Commentaires : accents sur caractères accentués quasiment toujours absents

70/115
Difficultés de la fouille de texte

Exemples de données textuelles


Message issues de forum de discussion

Sujet: galere pour initialiser un iphone 4


Auteur: tirando
Posté le 15-09-2016 à 11:52:13

Bonjour

On ma donne un iphone 4 desimlocker et a priori depareillé du compte


icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.

Commentaires : apostrophes manquants (espace, ou mots regroupés)

70/115
Difficultés de la fouille de texte

Exemples de données textuelles


Message issues de forum de discussion

Sujet: galere pour initialiser un iphone 4


Auteur: tirando
Posté le 15-09-2016 à 11:52:13

Bonjour

On ma donne un iphone 4 desimlocker et a priori depareillé du compte


icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.

Commentaires : peu de majuscule (iphone, itunes, apple)

70/115
Difficultés de la fouille de texte

Exemples de données textuelles


Message issues de forum de discussion

Sujet: galere pour initialiser un iphone 4


Auteur: tirando
Posté le 15-09-2016 à 11:52:13

Bonjour

On ma donne un iphone 4 desimlocker et a priori depareillé du compte


icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.

Commentaires : ponctuation approximative (points de fin de phrases absents)

70/115
Difficultés de la fouille de texte

Exemples de données textuelles


Message issues de forum de discussion

Sujet: galere pour initialiser un iphone 4


Auteur: tirando
Posté le 15-09-2016 à 11:52:13

Bonjour

On ma donne un iphone 4 desimlocker et a priori depareillé du compte


icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.

Commentaires : fautes d’orthographe, d’accord ou de conjugaison

70/115
Difficultés de la fouille de texte

Exemples de données textuelles


Message issues de forum de discussion

Sujet: galere pour initialiser un iphone 4


Auteur: tirando
Posté le 15-09-2016 à 11:52:13

Bonjour

On ma donne un iphone 4 desimlocker et a priori depareillé du compte


icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.

Commentaires : franglais

70/115
Difficultés de la fouille de texte

Exemples de données textuelles


Message issues de forum de discussion

Sujet: galere pour initialiser un iphone 4


Auteur: tirando
Posté le 15-09-2016 à 11:52:13

Bonjour

On ma donne un iphone 4 desimlocker et a priori depareillé du compte


icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.

Commentaires : franglais, sémantique approximative

70/115
Difficultés de la fouille de texte

Exemples de données textuelles


Message issues de forum de discussion

Sujet: galere pour initialiser un iphone 4


Auteur: tirando
Posté le 15-09-2016 à 11:52:13

Bonjour

On ma donne un iphone 4 desimlocker et a priori depareillé du compte


icloud
Je l ai reinitialisé via itunes (dabord sans carte sim et dans un 2eme
essai avec une carte sim dedans)
j ai cree un compte itunes (apple)
Quand il faut me connecter a mon nouveau compte apple au demarrage de
l iphone ca merde. Le serveur n a pas pu se connecte... Ca fait une
semaine que je suis dessus.

Commentaires : niveau de langue variable...

70/115
Difficultés de la fouille de texte

Exemples de données textuelles


Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12

Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.

Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)

Merci! C'est mon dernier espoir avant de passer sous Android...

71/115
Difficultés de la fouille de texte

Exemples de données textuelles


Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12

Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.

Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)

Merci! C'est mon dernier espoir avant de passer sous Android...

Commentaires :

71/115
Difficultés de la fouille de texte

Exemples de données textuelles


Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12

Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.

Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)

Merci! C'est mon dernier espoir avant de passer sous Android...

Commentaires : accents sur caractères accentués parfois absents

71/115
Difficultés de la fouille de texte

Exemples de données textuelles


Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12

Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.

Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)

Merci! C'est mon dernier espoir avant de passer sous Android...

Commentaires : certains points de fin de phrases absents

71/115
Difficultés de la fouille de texte

Exemples de données textuelles


Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12

Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.

Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)

Merci! C'est mon dernier espoir avant de passer sous Android...

Commentaires : fautes d’orthographe

71/115
Difficultés de la fouille de texte

Exemples de données textuelles


Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12

Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.

Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)

Merci! C'est mon dernier espoir avant de passer sous Android...

Commentaires : fautes d’orthographe, d’accord ou de conjugaison

71/115
Difficultés de la fouille de texte

Exemples de données textuelles


Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12

Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.

Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)

Merci! C'est mon dernier espoir avant de passer sous Android...

Commentaires : franglais

71/115
Difficultés de la fouille de texte

Exemples de données textuelles


Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12

Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.

Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)

Merci! C'est mon dernier espoir avant de passer sous Android...

Commentaires : franglais, niveau de langue variable

71/115
Difficultés de la fouille de texte

Exemples de données textuelles


Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12

Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.

Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)

Merci! C'est mon dernier espoir avant de passer sous Android...

Commentaires : interprétation nécessitant une connaissance du monde

71/115
Difficultés de la fouille de texte

Exemples de données textuelles


Sujet : fichiers corrompu supprimer sur Iphone 4S 64go
Auteur: Phoenix_spyme
Posté le 02-09-2016 à 23:16:12

Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.

Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)

Merci! C'est mon dernier espoir avant de passer sous Android...

Commentaires : variation sémantique

71/115
Difficultés de la fouille de texte

Exemples de données textuelles


Recette de cuisine - texte procédural
Tartiflette
Temps de préparation : 30 minutes
Temps de cuisson : 20 minutes

Ingrédients (pour 6 personnes) :


- 1 reblochon et demi (2 pour les gourmands)
- 1,2 kg de pommes de terre
- 1 tranche de jambon fumé coupée en dés (ou bien des lardons ou des dés de bacon)
- 500 g d'oignons
- 40 cl d'Apremont ou autre blanc de Savoie sec (facultatif, mais donne plus de goût)
- 1 pincée de sel
- 1 pincée de poivre

Préparation de la recette :
Faites cuire les pommes de terre avec leur peau. Épluchez-les et coupez-les en rondelles.
Émincez les oignons puis faites-les revenir avec un peu de beurre. Une fois dorés, y ajouter le
jambon (ou les lardons), ainsi que les pommes de terre. Laissez mijoter 15 min.
Si vous utilisez du vin blanc, c'est le moment de l'ajouter. Salez un peu, poivrez, laissez les
pommes de terre s'imprégner du vin blanc quelques minutes avant de transférer le tout dans un
plat à gratin.
Grattez au couteau les reblochons, coupez-les en 2 dans le sens de l'épaisseur et posez les sur
les pommes de terre.
Faites cuire à four chaud (220°C) pendant 20 à 30 min. Servez avec une salade verte, voire
quelques tomates, juste assaisonnées d'un peu de vinaigre d'échalote.

Boisson conseillée :
Apremont, blanc de savoie sec

72/115
Difficultés de la fouille de texte

Exemples de données textuelles


Recette de cuisine - texte procédural
Tiramisu
Temps de préparation : 20 minutes
Temps de cuisson : 0 minutes

Ingrédients (pour 6 personnes) :


- 3 gros oeufs
- 40 g de cassonade
- 125 g de mascarpone
- 120 g de petit-suisse à 3,8% de matière grasse
- 10 cl de café noir non sucré
- 10 g de poudre de cacao amer
- 1 cuillère à soupe de rhum vieux ou d’amaretto
- 12 biscuits à la cuillère

Préparation de la recette :
Séparer les blancs des jaunes.
Blanchir les jaunes avec la cassonade à l’aide d’un fouet électrique. Ajouter le mascarpone et
les petits-suisses puis bien fouetter. Ajouter l’alcool.
Monter les blancs en neige et les incorporer délicatement à la spatule au mélange précédent.
Réserver.

Préparer du café noir et y ajouter l’alcool.


Couper les biscuits en deux si besoin et les tremper légèrement dans le café.
Tapisser chaque verrine (24 cl) de deux moitiés de biscuits. Recouvrir de deux cuillères à
soupe de crème, d’une couche de deux moitiés de biscuits mouillés puis terminer avec deux
cuillères à soupe de crème. Mettre au réfrigérateur 6 heures minimum mais encore meilleur si
préparé la veille et laissé au frais toute la nuit.

73/115
Difficultés de la fouille de texte

Exemples de données textuelles


Recette de cuisine - texte procédural

(suite)
Saupoudrer de cacao au moment de servir et déguster frais.

Pour une 1 part :


- environ 240 calories

Équivalences dans un repas :


- 1 fruit moyen
- 1 portion de fromage (environ 30 g)
- 1 cuillère à café d’huile

Astuces : Si on décide de mettre plus de biscuits soit 4 par verrine au lieu de 2, on


rajoutera dans l’équivalence repas : 1 tranche de pain

Valeurs nutritionnelles :
- protéines : environ 5 g
- lipides : environ 15 g
- glucides : environ 20 g

Remarques :
Cette recette adaptée pour une personne diabétique a été élaborée en collaboration avec les
diététiciennes Jacqueline Delaunay, Céline Benoit et Patricia Fiquet

74/115
Difficultés de la fouille de texte

Exemples de données textuelles


Extraits de dossiers patients anonymisés

DISCHARGE MEDICATIONS:
HYDROCORTISONE 2.5% -RECTAL CREAM TP BID
Instructions: Apply to hemorrhoids
BEN-GAY TOPICAL TP BID
Instructions: Apply liberally to legs
Alert overridden: Override added on 9/8/03 by
FACK , PASQUALE DIEGO , M.D.
DEFINITE ALLERGY ( OR SENSITIVITY ) to SALICYLATES
Reason for override: aware
PREMARIN ( CONJUGATED ESTROGENS ) 1.25 MG PO QD
LASIX ( FUROSEMIDE ) 60 MG qam; 40 MG qpm PO BID 60 MG qam
40 MG qpm Starting Today ( 0/29 )
METAMUCIL SUGAR FREE ( PSYLLIUM ( METAMUCIL ) SU... )
1 PACKET PO TID Instructions: With meals
NORVASC ( AMLODIPINE ) 10 MG PO QD
Food/Drug Interaction Instruction
Avoid grapefruit unless MD instructs otherwise.
AMBIEN ( ZOLPIDEM TARTRATE ) 10 MG PO QHS PRN insomnia

75/115
Difficultés de la fouille de texte

Exemples de données textuelles


Extraits de dossiers patients anonymisés

RRR , lots of BS's , neuro nonfocal , ext with 1+ edema. On atenolol ,


zestril , norvasc , premarin , detrol , lasix 60 qd , nebs prn at home.
Labs sig for Cr 0.7 , CK 48 , TnI .05 , QBC 9.5 , Hct 41.3. From CV
point of view , thought to be CHF exac. ROMI'd without events on monitor
and diuresed 2L/day. IV Lasix 80 bid to start transitioned to 60 po
bid. BNP>assay. 6/17 dobut MIBI with mod sized ant septal wall defect
c/w diagonal lesion , 3/22 Echo with EF 55-60% , mild LAE/RAE ,
no WMA , mod large RV. No further CV studies. Cont previously meds on
d/c. From FEN point of view , 2 L fluid restriction , 2 g Na
restriction. Nutrition consult , but pt very resistant to diet changes.
From GI point of view , GERD; nexium started. From pulm point of view ,
CXR c/w sl fluid overload , no focal findings , no pulm edema. Given NC
O2 and BiPAP at night.

76/115
Difficultés de la fouille de texte

Exemples de données textuelles


Extraits de dossiers patients anonymisés

The patient is currently off diuretics at this time. Daily


weights should be checked and if her weight increases by more
than 3 pounds Dr. Bockoven should be notified. The patient was also
started on calcitriol given elevation of parathyroid hormone.
Cardiovascular: Rate and rhythm: The patient has a history of
atrial fibrillation with a slow ventricular response. The
patient was started on metoprolol 12.5 mg p.o. q.6 h. for rate
control , however , this dose was decreased to 12.5 mg p.o. twice a
day, given some bradycardia on her telemetry. The patient was
also started on Flecainide 75 mg p.o. q.12 h. She will continue
on these two medications upon discharge.

77/115
Difficultés de la fouille de texte

Recherche vs. Découvrir

Recherche Découverte

données Extraction de données Fouille de données


structurées BD BD, entrepôts

Recherche d’information Fouille de textes


données
collection de textes collection de textes
non structurées
(textes indexés) (corpus)

78/115
Difficultés de la fouille de texte

Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut

79/115
Difficultés de la fouille de texte

Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes

79/115
Difficultés de la fouille de texte

Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes

79/115
Difficultés de la fouille de texte

Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)

79/115
Difficultés de la fouille de texte

Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
régles d’extraction (expression régulières, etc.)

79/115
Difficultés de la fouille de texte

Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
régles d’extraction (expression régulières, etc.)
modèles d’apprentissage obtenus à partir d’un corpus
d’exemples

79/115
Difficultés de la fouille de texte

Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
régles d’extraction (expression régulières, etc.)
modèles d’apprentissage obtenus à partir d’un corpus
d’exemples
apprentissage supervisé (CRF, Arbre de décision, SVM, etc.)

79/115
Difficultés de la fouille de texte

Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
régles d’extraction (expression régulières, etc.)
modèles d’apprentissage obtenus à partir d’un corpus
d’exemples
apprentissage supervisé (CRF, Arbre de décision, SVM, etc.)
apprentissage non-supervisé (règles d’association, k-means,
etc.)

79/115
Difficultés de la fouille de texte

Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
régles d’extraction (expression régulières, etc.)
modèles d’apprentissage obtenus à partir d’un corpus
d’exemples
apprentissage supervisé (CRF, Arbre de décision, SVM, etc.)
apprentissage non-supervisé (règles d’association, k-means,
etc.)
4 Extraction d’information

79/115
Données textuelles

Données textuelles

80/115
Données textuelles

Fouille de texte
Chaîne de traitements

Collecte Documents (PDF, .doc, etc.)


des données Pages web (HTML, XML, etc.), Mails, Forums, etc.

Nettoyage et Nettoyage, Segmentation en mots et phrases


Pré-traitements Etiquetage morpho-syntaxique, lemmatisation

Annotation
Reconnaissance d’entités nommées
des entités
Reconnaissance et extraction de termes
sémantiques

Regroupement Acquisition de relations sémantiques


des entités Classification et catégorisation sémantique

Elimination des entités non pertinentes


Sélection
Désambiguïsation sémantique
des entités
Traitements spécifiques liés à la tâche

Post-traitements

81/115
Données textuelles

Données structurées vs. données non-structurés


Données structurées
données:
stockées dans une structure logique (BD, enregistrement, etc.)
consistantes
typées
idéales pour la fouille de données
Données non-structurées
textes libres, rédigés en langage naturel
pas de structure logique explicite, au sens informatique du
terme
mélange d’information de différents types (dates, valeurs
numériques, lieu, nom de personne, etc.)
Le matériau principal de la fouille de textes

82/115
Données textuelles

Données semi-structurées

Combinaison de texte libre et de données structurés : XML,


RDF
Exemples
1 Une partie contient des informations directement stockables
dans une base de données
Une autre partie contient des zones de texte libre

83/115
Données textuelles

Exemple
DrugBank

84/115
Données textuelles

Données semi-structurées

Combinaison de texte libre et de données structurés : XML,


RDF
Exemples
1 Une partie contient des informations directement stockables
dans une base de données
Une autre partie contient des zones de texte libre
2 Questionnaire contenant une zone de commentaires

85/115
Données textuelles

Type de données textuelles


Textes ou collection de textes: corpus textuels
De grandes variations :
Formats électronique (texte brut, HTML, XML, PDF, Word,
etc.)
Encodage de caractères (ASCII, ISO-LATIN-1, windows-1252,
UTF-8, etc.)
Type de documents (pages web, blogs, articles scientifiques,
articles de journaux, livres, tables, messages de forum, emails,
SMS, etc.)
Taille: entre quelques Kilo-octets et plusieurs Giga-octets
→ En général : Manipulation de textes bruts

86/115
Données textuelles

Texte brut/fichier plein texte


Résumés Medline
1: Biosci Biotechnol Biochem. 2003 Aug;67(8):1825-7. Related Articles, Links

Comparative Analyses of Hairpin Substrate Recognition by


Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological


Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of


the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.

PMID: 12951523 [PubMed - in process]


87/115
Données textuelles

HTML
Page Web

→ Nécessite d’extraire le contenu utile

88/115
Données textuelles

HTML
Page Web
<p>Le déploiement de Lollipop sur les appareils de Samsung a été pour
le moins chaotique. Le premier appareil du coréen à disposer de
Lollipop a été le Galaxy S5, dont la mise à jour a été déployée en
janvier dernier. Samsung assure d’ailleurs un suivi exemplaire,
puisqu’une seconde a été mise en ligne quelques jours après, et met le
téléphone à jour vers la version 5.0.2 de Lollipop avec, en plus, un
véritable mode silencieux.</p> <!-- from memcache
see-more-shortcode_264390:Samsung Galaxy S5 : Lollipop est arrivé et
voici les changements qu’il apporte --> <div class="see-more" ><p>
<strong class="see-more-title caps" >En savoir plus :</strong> <a
href="https://www.frandroid.com/marques/samsung/264390_prise-en-main-du-galaxy-s5-de-samsung-sous-lollipop
Galaxy S5 : Lollipop est arrivé et voici les changements qu’il
apporte</a> </p> </div> <p>Le cas des autres appareils de Samsung est
un peu plus flou. On sait que le déploiement de Lollipop sur le Galaxy
Note 4, Galaxy Note 4 Edge, <a
href="//www.frandroid.com/marques/samsung/265050_samsung-galaxy-note-3-lollipop-est-arrive-en-russie"
target="_blank">Galaxy Note 3</a> et le Galaxy S4 est imminent. La ROM
est actuellement déployée <a
href="//www.frandroid.com/marques/samsung/267697_samsung-galaxy-note-4-lollipop-est-aussi-en-coree-du-sud"
target="_blank">en Corée du Sud </a>et <a
href="//www.frandroid.com/marques/samsung/267900_le-samsung-galaxy-note-4-sous-snapdragon-805-recoit-son-t
target="_blank">dans quelques pays de l’Europe de l’Est</a>,
certainement pour la tester et devrait arriver sur les smartphones
occidentaux d’ici quelques jours ou semaines.</p> <p>Il reste enfin
quelques inconnues dans les appareils de Samsung. Le cas du Galaxy
Alpha, pourtant sorti peu de temps avant le Galaxy Note 4, est à ce
jour inconnu. Il serait improbable que Samsung ne le mettre pas à jour
vers Lollipop, mais il n’a jamais communiqué sur le statut de cet
appareil depuis le début de l’année. Même remarque pour la version
Mini du Galaxy S5, dont on ne sait pas quand la mise à jour arrivera
89/115
Données textuelles

Texte brut issu de la page Web


Le déploiement de Lollipop sur les appareils de Samsung a été pour le
moins chaotique. Le premier appareil du coréen à disposer de Lollipop
a été le Galaxy S5, dont la mise à jour a été déployée en janvier
dernier. Samsung assure d’ailleurs un suivi exemplaire, puisqu’une
seconde a été mise en ligne quelques jours après, et met le téléphone
à jour vers la version 5.0.2 de Lollipop avec, en plus, un véritable
mode silencieux.
Le cas des autres appareils de Samsung est un peu plus flou. On sait
que le déploiement de Lollipop sur le Galaxy Note 4, Galaxy Note 4
Edge, Galaxy Note 3 et le Galaxy S4 est imminent. La ROM est
actuellement déployée en Corée du Sud et dans quelques pays de
l’Europe de l’Est, certainement pour la tester et devrait arriver sur
les smartphones occidentaux d’ici quelques jours ou semaines.

Il reste enfin quelques inconnues dans les appareils de Samsung. Le


cas du Galaxy Alpha, pourtant sorti peu de temps avant le Galaxy Note
4, est à ce jour inconnu. Il serait improbable que Samsung ne le
mettre pas à jour vers Lollipop, mais il n’a jamais communiqué sur le
statut de cet appareil depuis le début de l’année. Même remarque pour
la version Mini du Galaxy S5, dont on ne sait pas quand la mise à jour
arrivera si ce n’est à un vague « deuxième trimestre de l’année«
. Enfin, Samsung a confirmé que le Galaxy Note 2 aura bel et bien
droit à Lollipop.

90/115
Données textuelles

Page Web Wikipedia

91/115
Données textuelles

Brochures médicales

92/115
Données textuelles

Notion de corpus

Des textes sous forme électronique ne font pas un corpus

Un corpus

93/115
Données textuelles

Notion de corpus

Des textes sous forme électronique ne font pas un corpus

Un corpus
est une collection de textes

93/115
Données textuelles

Notion de corpus

Des textes sous forme électronique ne font pas un corpus

Un corpus
est une collection de textes
qui sont sélectionnés et organisés

93/115
Données textuelles

Notion de corpus

Des textes sous forme électronique ne font pas un corpus

Un corpus
est une collection de textes
qui sont sélectionnés et organisés
selon des critères linguistiques et sociologiques

93/115
Données textuelles

Notion de corpus

Des textes sous forme électronique ne font pas un corpus

Un corpus
est une collection de textes
qui sont sélectionnés et organisés
selon des critères linguistiques et sociologiques
explicites

93/115
Données textuelles

Notion de corpus

Des textes sous forme électronique ne font pas un corpus

Un corpus
est une collection de textes
qui sont sélectionnés et organisés
selon des critères linguistiques et sociologiques
explicites
pour servir d’échantillon du langage lié à l’application
visée.

93/115
Données textuelles

Linguistique de corpus

Fondement principal des approches de fouille de texte


Pas d’a priori sur la langue
L’information nécessaire se trouve dans le corpus
Corpus de spécialité caractérisés par :
un lexique limité (termes, synonymes)
schémas syntaxiques particuliers
Disponibilité d’outils nécessaires
dépouillement et traitements du corpus

94/115
Données textuelles

Types de corpus

Corpus de référence
Corpus spécialisé
Mais aussi, Corpus de presse, de dépêches

95/115
Données textuelles

Corpus de référence

tend à fournir une vue complète d’une langue


description des caractéristiques linguistiques
sert de base pour la production de :
grammaires
dictionnaires
sa composition :
une sélection de textes selon un modèle des critères
sociologiques, linguistiques, etc.
structure interne :
sous-corpus thématiques, origine, etc.

96/115
Données textuelles

Corpus de spécialité

textes issus d’un domaine de spécialité


médecine, cogénération, télécommunications, etc.
représente un langage de spécialité (sous-langage)
pour un domaine donné
a des particularités lexicales et grammaticales
sert de base pour
beaucoup d’application de fouille de texte
la production de terminologies (thesaurus, etc.)
structure interne :
sous-corpus thématiques, origine, etc.

97/115
Données textuelles

Démarches dans la constitution du corpus

Regroupement de textes opportuniste


Regroupement de textes raisonné et ciblé :
représentativité :
taille suffisante
données diversifiées
genre, spécialisation
origine mémorisée

98/115
Données textuelles

Exigences vis-à-vis d’un corpus

Le corpus doit satisfaire une triple exigence :


pertinence par rapport au domaine
textes représentatifs de ceux produits dans le domaine
pertinence par rapport à la tâche
textes représentatifs de ceux manipulés par l’application finale
prise en compte des possibilités des outils de traitement
automatique

99/115
Données textuelles

Pertinence par rapport au domaine

textes qui véhiculent la connaissance du domaine :


textes spécialisés
textes de vulgarisation

100/115
Données textuelles

Quelques tactiques de constitution de corpus

scannérisation
collecte auprès des experts
documentation d’une entreprise, d’un service
exploration d’une base de données spécialisée
exploration de l’Internet

101/115
Données textuelles

Pertinence par rapport au domaine

Caractérisation du domaine :
mots clés, termes centraux du domaine, descripteurs
Garantie de la centralité des documents :
présence des mots clés dans ces documents
Recensement de textes qui véhiculent la connaissance du
domaine :
textes spécialisés
textes pour les non-spécialistes
textes de vulgarisation
(à inclure suivant la tâche)

102/115
Données textuelles

Pertinence par rapport à la tâche


Prendre en compte l’application finale :
objectifs
un phénomène linguistique, grammaire, style littéraire
application
recherche d’information, indexation, etc.
portée
interne, externe à une entreprise, nationale, etc.
spécialisation
corpus de langue générale, de langue de spécialité
type de corpus
contexte multilingue : corpus parallèle

103/115
Données textuelles

Pertinence par rapport aux outils

Prendre en compte les possibilités des outils disponibles


Choisir des outils en fonction de textes à traiter :
robustesse
langue
format
Outils monolingues ou bien multilingues

104/115
Données textuelles

Exemple de corpus spécialisés

Corpus Menelas :
genres :
manuels
comptes rendus d’examens et de traitements
lettres aux collègues
domaine :
maladies coronariennes

105/115
Données textuelles

Exemple de corpus spécialisés

Corpus Clef médical :


genres :
compte-rendus d’hospitalisation
RMO
portail médical (CISMeF)
domaines :
stomatologie
néphrologie
neurologie
etc.

106/115
Données textuelles

Exemple de corpus spécialisés

Corpus Safir (co-génération d’électricité et de chaleur) :


documents de l’Internet :
textes reglementaires de la communauté européenne
documents de présentation des sociétés
documents techniques de vulgarisation
documents des conférences sur la cogénération :
présentation des sociétés et de leurs produits
documents écologiques
documents des bases de données internes :
fiches techniques
présentation des sous-domaines, des branches

107/115
Données textuelles

Corpus I2B2
(I2B2 – Informatics for Integrating Biology and the Bedside)

2009 : Extraction d’information dans les dossiers patient (1 249


documents, 696 pour l’entrainement – 17 annotés manuellement,
et 553 pour la phase de test)
Extraction des
noms des médicaments administrés aux patients (dans le
passé ou actuellement)
informations liées (dosage, durée, fréquence, mode
d’administration, raison(s) de la prescription)

108/115
Données textuelles

Autres types de corpus :

corpus comparables constituent des sélections de textes similaires


(langues ou variétés d’une langue)
corpus parallèles sont constitués de documents traduits dans une
ou plusieurs langues
corpus alignés les passages correspondants sont réliés (Hansard)
corpus de suivi corpus en évolution, corpus glissant
corpus segmentés segmentation en mots, phrases, etc.
corpus étiquetés étiquetage morpho-syntaxique
corpus arborés analyse syntaxique
etc.

109/115
Données textuelles

Problèmes juridiques

Information confidentielle
Menelas (CRH : maladies coronariennes)
secret médical
Safir (documents divers : cogénération)
données confidentielles d’une entreprise (EDF)
Propriété intellectuelle
droits d’auteur
droits d’annotateurs de corpus

110/115
Données textuelles

Problèmes juridiques

Solutions :
secret médical (Informatique et Liberté)
anonymisation ou dé-identification :
nom du patient
service
date et lieu de naissance
coordonnées du patient
coordonnées du service
date de consultation, d’hospitalisation
nom du médecin

111/115
Données textuelles

Problèmes juridiques

Solutions :
propriété intellectuelle :
extraits
convention
cession de droits, licence d’utilisation, etc.
confidentialité vis-à-vis d’une entreprise :
convention, achat d’une licence
documents « non-sortables »
???

112/115
Données textuelles

Echantillonnage

problèmes juridiques
”équilibrer” en taille les textes
”représenter” une diversité maximale de situations de
communication
ne pas sur-représenter des ”lieux” de textes aux
caractéristiques particulières
problèmes :
comportements hétérogènes des occurrences dans les
documents

113/115
Données textuelles

Documentation

Types d’informations
contexte de production du texte
auteur, date, taille, format, public visé, thème, objectif, etc.
contexte de collecte de corpus
date, responsables, taille, etc.

Enregistrement
dans des tables externes
encodage XML

114/115
Données textuelles

Regroupement des documents


dans un corpus

Identification des sources de documents


Source des documents :
base bibliographique
collection interne
Web
Utilisation d’un crawler, de requêtes Google
Aspiration d’un site Web

115/115
Données textuelles
Aubin (Sophie) et Hamon (Thierry). –
Improving Term Extraction with Terminological Resources. In : Advances in Natural Language Processing
(5th International Conference on NLP, FinTAL 2006), éd. par Salakoski (Tapio), Ginter (Filip),
Pyysalo (Sampo) et Pahikkala (Tapio). pp. 380–387. –
Springer.

Gollub (Koraljka), Hamon (Thierry) et Ardö (Anders). –


Automated classification of textual documents based on a controlled vocabulary in engineering. Knowledge
Organization, vol. 34 (4), 2007, pp. 247–263.

Grabar (Natalia), Jaulent (Marie-Christine) et Hamon (Thierry). –


Combination of endogenous clues for profiling inferred semantic relations: experiments with Gene Ontology.
In : Proceedings of the AMIA 2008 Annual Symposium, pp. 252–256. –
Washington, DC, November 2008. PMID 18999042.

Grabar (Natalia), Varoutas (Paul-Christophe), Rizand (Philippe), Livartowski (Alain) et Hamon


(Thierry). –
Automatic acquisition of Synonym Ressources and Assessment of their Impact on the Enhanced Search in
EHRs. Methods of Information in Medicine, vol. 48 (2), 2009, pp. 149–154. –
PMID 19283312, DOI 10.3414/ME9213.

Grabar (Natalia) et Hamon (Thierry). –


Exploitation of speculation markers to identify the structure of biomedical scientific writing. In :
Proceedings of AMIA 2009 Symposium, pp. 203–207. –
San Francisco, USA, November 2009.

Hamon (Thierry), Nazarenko (Adeline), Poibeau (Thierry), Aubin (Sophie) et Derivière (Julien). –
A Robust Linguistic Platform for Efficient and Domain specific Web Content Analysis. In : Proceedings of
RIAO 2007. –
Pittsburgh, USA, 2007. 15 pages.

115/115
Données textuelles
Hamon (Thierry), Graña (Martin), Raggio (Víctor), Grabar (Natalia) et Naya (Hugo). –
Identification of relations between risk factors and their pathologies or health conditions by mining scientific
literature. In : Proceedings of MEDINFO 2010, pp. 964–968. –
PMID: 20841827.
Hamon (Thierry), Engström (Christopher) et Silvestrov (Sergei). –
Term ranking adaptation to the domain: genetic algorithm based optimisation of the C-Value. In :
Proceedings of PolTAL 2014 – Advances in Natural Language Processing, éd. par Springer , pp. 71–83.

Hamon (Thierry) et Gagnayre (Rémi). –


Improving knowledge of patient skills thanks to automatic analysis of online discussions. Patient Education
and Counseling, 2013. –
Special section on Health Communication and Artificial Intelligence (IF: 2.305, 5yIF: 2.929).

Hamon (Thierry) et Grabar (Natalia). –


Exploring Graph Structure for Detection of Reliability Zones within Synonym Resources: Experiment with
the Gene Ontology. In : Proceedings of BioNLP’2009 – Workshop of NAACL-HLT 2009. –
Boulder, Colorado, June 2009.

Hamon (Thierry) et Grabar (Natalia). –


Adaptation of Cross-Lingual Transfer Methods for the Building of Medical Terminology in Ukrainian. In :
Proceedings of the 17th International Conference on Intelligent Text Processing and Computational
Linguistics (CICLING2016). –
Springer.

Hamon (Thierry). –
Rapport de Stage à l’UQAM - 19 juin - 21 juillet 2000, octobre 2000.

Hamon (Thierry). –
Acquisition terminologique pour identifier les mots clés d’articles scientifiques. In : Actes de l’atelier DEFT
2012, pp. 25–31. –

115/115
Données textuelles
Grenoble, France, Juin 2012.

Hamon (Thierry). –
Indexation automatique de notices bibliographiques à l’aide d’approches d’acquisition terminologique. In :
Actes de DEFT 2016, pp. 20–26. –
Paris, France, Juillet 2016. Atelier de la conférence JEP-TALN-RECITAL 2016.

Neifar (Wafa), Hamon (Thierry), Zweigenbaum (Pierre), Khemakhem (Mariem Ellouze) et Belguith
(Lamia Hadrich). –
Adaptation of a Term Extractor to Arabic Specialised Texts: First Experiments and Limits. In : Proceedings
of the 17th International Conference on Intelligent Text Processing and Computational Linguistics
(CICLING2016), éd. par Springer .

Périnet (Amandine), Grabar (Natalia) et Hamon (Thierry). –


Identification des assertions dans les textes médicaux : application à la relation {patient, problème
médical}. Traitement Automatique des Langues (TAL), vol. 52 (1), 2011, pp. 97–132.

115/115

You might also like