Professional Documents
Culture Documents
Introduction To Natural Language Processing FdT-Cours1-IntroNLP-FdT
Introduction To Natural Language Processing FdT-Cours1-IntroNLP-FdT
Introduction To Natural Language Processing FdT-Cours1-IntroNLP-FdT
Thierry Hamon
January-March 2019
Université Paris 13 - M2EIDD
1/115
Ma recherche
Domaine : Traitement Automatique des Langues
appliqué aux domaines de spécialité (électricité, médecine,
risque chimique, etc.)
sur des textes en français, anglais, ukrainien, arabe
Proposition d’approches pour
Constitution et enrichissement de ressources terminologiques
Articulation d’outils de TAL
Extraction et recherche d’information
Type de données textuelles : bases bibliographiques,
documents techniques, dossiers patients, articles scientifiques,
forums de discussion, etc.
Développement d’outils en Perl (modules CPAN)
2/115
Ma recherche
Constitution et enrichissement de ressources terminologiques
Exploration de corpus textuels
Extraction de termes : YATEA
[Aubin et Hamon 2006, Hamon et al. 2014, Neifar et al. 2016,
Hamon et Grabar 2016]
Acquisition de relations sémantiques : SynoTerm
[Hamon 2000, Grabar et al. 2008, Hamon et Grabar 2009]
Application : Identification automatique de mots-clés d’articles
[Hamon 2012, Hamon 2016]
3/115
Ma recherche
Extraction et recherche d’information
Fouille de dossiers patients (en anglais) :
Identification des maladies, des médicaments et des traitements
mais aussi des relations entre eux et de leur niveau de certitude
[Grabar et Hamon 2009, Hamon et al. 2010, Périnet et al. 2011]
Fouille de données bibliographiques :
Collecte des facteurs de risque associés aux maladies
[Hamon et al. 2010]
Collecte ciblée de documents sur le Web [Gollub et al. 2007]
Intégration d’informations linguistiques dans le moteur de
recherche de l’intranet [Grabar et al. 2009]
Fouille de forums de discussion [Hamon et Gagnayre 2013]
4/115
Organisation
Organisation
5/115
Organisation
Plan
6/115
History and Context
7/115
History and Context
Translation in Russian
8/115
History and Context
Translation in Russian
and then in English
8/115
History and Context
Translation in Russian
and then in English
The vodka is strong, but the meat is rotten
Invisible idiot
8/115
History and Context
Translation in Russian
and then in English
The vodka is strong, but the meat is rotten
Invisible idiot
8/115
History and Context
Requirements :
Machine readable dictionaries
Syntactic information (order and function of the words)
Problems:
Ambiguities, polysemy, ...
Complex syntactic structures,
Semantics (relations, categories, ...)
Anaphora, ...
9/115
History and Context
Requirements :
Machine readable dictionaries
Syntactic information (order and function of the words)
Problems:
Ambiguities, polysemy, ...
Complex syntactic structures,
Semantics (relations, categories, ...)
Anaphora, ...
→ Need of (a lot of) context
9/115
History and Context
10/115
History and Context
Contributions
Interdisciplinary research field:
Linguistics
Phonology
Generative grammars
Syntax
Philosophy of language
Mathematics:
Logic
Formal language theory
Statistics
Computer science
Algorithms
Software engineering
Machine learning
11/115
History and Context
Research fields
12/115
History and Context
13/115
History and Context
lexique.org, ... MorTAL, Celex, ... LTAG, FTAG, LFG, ... WordNet, DEC, ...
Speech recognition Spell checking Man machine dialogue Corpus Linguistics Resource building Text Generation
Applications
Terminology
Stylistics Ontology
Weather forecast, report, ... Statistical NLP Natural Language Generation
Automatic summarization
MT (Machine Translation)
CAT (Computer−assisted Translation)
IR (Information Retrieval) IE/TM (Information Extraction/Text Mining)
QA (Question Answering)
14/115
History and Context
NLP Applications
Machine Translation
Information Retrieval
Text mining (Information Extraction)
Question Answering
Dialogue, Text Generation (ChatBot)
Social network analysis (Tweets, Forum, etc.)
Lexical/linguistic/terminological resource building
...
on general-purpose or domain-specific texts
15/115
History and Context
16/115
History and Context
France
ATALA: Association pour le traitement automatique des
langues
TAL: revue
TALN, RECITAL, TALS, TALC, JEP, ...: conférences
Site Web : http://www.atala.org
Liste de diffusion : ln
Rapprochement TAL & IA
Journées communes ATALA/AFIA
Plateforme AFIA 2019 : inclusion de TALN-RECITAL 2019
Filières de formations
Nombreux laboratoires
Besoins en entreprise
Enjeux toujours réels
17/115
Example
18/115
Example
18/115
Example
18/115
Example
19/115
Example
20/115
Example
21/115
Example
22/115
Example
Morphological analysis
Description of the words regarding their form (morpheme)
Recognition of the
23/115
Example
Morphological analysis
Description of the words regarding their form (morpheme)
Recognition of the
Canonical form (dictionary entry)
23/115
Example
Morphological analysis
Description of the words regarding their form (morpheme)
Recognition of the
Canonical form (dictionary entry)
Part of speech (grammatical category)
23/115
Example
Morphological analysis
Description of the words regarding their form (morpheme)
Recognition of the
Canonical form (dictionary entry)
Part of speech (grammatical category)
Inflectional parameters (gender, number, ...)
23/115
Example
24/115
Example
det(time-2, What-1)
attr(is-3, time-2)
det(train-6, the-4)
amod(train-6, first-5)
nsubj(is-3, train-6)
prep_to(train-6, Lille-8)
nn(morning-11, tomorrow-10)
appos(Lille-8, morning-11)
25/115
Example
(ROOT
(SBARQ
(WHNP (WDT What) (NN time))
(SQ (VBZ is)
(NP
(NP (DT the) (JJ first) (NN train))
(PP (TO to)
(NP
(NP (NNP Lille))
(, ,)
(NP (NN tomorrow) (NN morning))))))
(? ?)))
26/115
Example
Semantic analysis
Identification of the
meaning of the words or phrases
semantic relations between them
Without taking into account the context
Logic can be used to represent semantics of a sentence
27/115
Example
28/115
Example
Pragmatics
Semantic interpretation of the sentence according to the
context
Contextual information:
departure? (Paris - Paris Gare du Nord, Paris Charles-de-Gaulle
Roissy Airport)
date (today)? (31th of January, 2019)
the results are sort by time (of departure)
need of the schedule
but also, reference resolution (anaphora)
29/115
Example
30/115
Example
31/115
Example
Answer generation
Translation of the query result into a textual form
The first train to Lille is at 7:40, tomorrow
In case of spoken answer, speech synthesis of the text
32/115
Example
Two directions:
Analysis of language data (textual data or human speech)
towards (more or less) the understanding of the message
Generation of language data (textual data or speech synthesis)
towards a linguistic realisation
Usually, NLP deals with the sentences
33/115
Formal language vs. Natural language
Formal language:
raw approximation of natural language
tool for analysing texts
34/115
Formal language vs. Natural language
Formal language:
concatenation of symbols to make the words of the language
(possibly infinitely)
words have two sides: form and meaning
Natural language:
words are concatenated to make utterances/sentences
(possibly infinitely)
sentences have two sides: sound (or string) and meaning
→ Formalisation of grammars for Natural Language (Chomsky
1956)
35/115
Formal language vs. Natural language
But...
Ambiguities:
Avoid/rejected by formal languages
36/115
Formal language vs. Natural language
37/115
Formal language vs. Natural language
semantic:
The police were ordered to stop drinking after midnight.
A sailor was dancing with a wooden leg.
Teacher strikes idle kids
anaphoric:
Margaret invited Susan for a visit, and she gave her a good
lunch.
→ All the above sentences can be correct
(but one meaning can be most probable than the other)
38/115
Introduction to NLP
39/115
Introduction to NLP
Introduction
(Méthode/Outils de) Traitement Automatique des Langues :
Analyse de données textuelles
Détection d’éléments textuels
Identification de leurs propriétés
Mise en relation des éléments identifiés
Données non-structurées
Textes libres, rédigés en langage naturel
Diversité des contenus, qualité rédactionnelle variable
Pas de structure logique explicite, au sens informatique du
terme
Mélange d’information de différents types (dates, valeurs
numériques, lieux, noms de personne, etc.)
Pré-traitements nécessaires
40/115
Introduction to NLP
Raw text
Medline abstract
1: Biosci Biotechnol Biochem. 2003 Aug;67(8):1825-7. Related Articles, Links
Pre-processing
42/115
Introduction to NLP
43/115
Introduction to NLP
Texte initial
Two weeks ago , the patient was started on metoprolol 12.5 mg p.o.
The patient has a history of atrial fibrillation with a slow ventricular response .
44/115
Introduction to NLP
Two weeks ago , the patient was started on metoprolol 12.5 mg p.o.
The patient has a history of atrial fibrillation with a slow ventricular response .
44/115
Introduction to NLP
The patient have a history of atrial fibrillation with a slow ventricular response .
DT NN VBZ DT NN IN JJ NN IN DT JJ JJ NN
44/115
Introduction to NLP
[FREQ]
The patient have a history of atrial fibrillation with a slow ventricular response .
DT NN VBZ DT NN IN JJ NN IN DT JJ JJ NN
Généralement :
45/115
Introduction to NLP
Extraction de termes
[TIMEX3] [DRUG] [DOSAGE] [MODADM]
[FREQ] [DISORDER]
[DISORDER] [DISORDER]
The patient have a history of atrial fibrillation with a slow ventricular response .
DT NN VBZ DT NN IN JJ NN IN DT JJ JJ NN
46/115
Introduction to NLP
Analyse syntaxique
https://aclweb.org/aclwiki/Parsing_(State_of_the_art)
47/115
Introduction to NLP
Analyse syntaxique
https://aclweb.org/aclwiki/Parsing_(State_of_the_art)
Exemple d’analyse en constituants :
48/115
Introduction to NLP
(issu de
Turku Event Extraction System (TEES)
http://jbjorne.github.io/TEES/)
49/115
Introduction to NLP
Plateformes de TAL
50/115
Introduction to NLP
Plateformes de TAL
GATE http://gate.ac.uk/
UIMA http://uima.apache.org/
NLTK http://www.nltk.org/
Stanford coreNLP https://stanfordnlp.github.io/CoreNLP/
LingPipe http://alias-i.com/lingpipe/
OpenNLP http://incubator.apache.org/opennlp/
Treex ufal.mff.cuni.cz/treex
Lima https://github.com/aymara/lima/wiki
Ogmios http://search.cpan.org/~thhamon/Lingua-Ogmios/
Plateforme Alvis (INRA)
http://bibliome.jouy.inra.fr/demo/ontobio/alvisir2/webapi/search
FreeLing http://nlp.lsi.upc.edu/freeling/
NLPCube http://opensource.adobe.com/NLP-Cube/index.html
51/115
Introduction to NLP
Ressources
52/115
Introduction to NLP
53/115
Introduction to NLP
Bilan
54/115
Introduction à la Fouille de Textes
55/115
Introduction à la Fouille de Textes
55/115
Introduction à la Fouille de Textes
...
56/115
Introduction à la Fouille de Textes
...
56/115
Introduction à la Fouille de Textes
...
56/115
Introduction à la Fouille de Textes
...
56/115
Introduction à la Fouille de Textes
...
56/115
Introduction à la Fouille de Textes
...
56/115
Introduction à la Fouille de Textes
...
56/115
Introduction à la Fouille de Textes
...
56/115
Introduction à la Fouille de Textes
...
56/115
Introduction à la Fouille de Textes
56/115
Introduction à la Fouille de Textes
56/115
Introduction à la Fouille de Textes
57/115
Introduction à la Fouille de Textes
57/115
Introduction à la Fouille de Textes
57/115
Introduction à la Fouille de Textes
57/115
Introduction à la Fouille de Textes
57/115
Introduction à la Fouille de Textes
57/115
Introduction à la Fouille de Textes
58/115
Introduction à la Fouille de Textes
58/115
Introduction à la Fouille de Textes
59/115
Introduction à la Fouille de Textes
Domaines associés
60/115
Difficultés de la fouille de texte
61/115
Difficultés de la fouille de texte
62/115
Difficultés de la fouille de texte
63/115
Difficultés de la fouille de texte
Loi de Zipf
Soient les mots d’un corpus donné, le rang d’un mot correspond à
son nombre d’occurrence (dans l’ordre décroissant).
La loi de Zipf prévoit que le nombre d’occurrence d’un mot est
inversement proportionnel à son rang.
64/115
Difficultés de la fouille de texte
65/115
Difficultés de la fouille de texte
Echelle logarithmique
66/115
Difficultés de la fouille de texte
67/115
Difficultés de la fouille de texte
68/115
Difficultés de la fouille de texte
69/115
Difficultés de la fouille de texte
Commentaires :
69/115
Difficultés de la fouille de texte
69/115
Difficultés de la fouille de texte
69/115
Difficultés de la fouille de texte
Commentaires : Abréviations
69/115
Difficultés de la fouille de texte
69/115
Difficultés de la fouille de texte
69/115
Difficultés de la fouille de texte
Bonjour
70/115
Difficultés de la fouille de texte
Bonjour
Commentaires :
70/115
Difficultés de la fouille de texte
Bonjour
70/115
Difficultés de la fouille de texte
Bonjour
70/115
Difficultés de la fouille de texte
Bonjour
70/115
Difficultés de la fouille de texte
Bonjour
70/115
Difficultés de la fouille de texte
Bonjour
70/115
Difficultés de la fouille de texte
Bonjour
Commentaires : franglais
70/115
Difficultés de la fouille de texte
Bonjour
70/115
Difficultés de la fouille de texte
Bonjour
70/115
Difficultés de la fouille de texte
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
71/115
Difficultés de la fouille de texte
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
Commentaires :
71/115
Difficultés de la fouille de texte
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
71/115
Difficultés de la fouille de texte
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
71/115
Difficultés de la fouille de texte
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
71/115
Difficultés de la fouille de texte
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
71/115
Difficultés de la fouille de texte
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
Commentaires : franglais
71/115
Difficultés de la fouille de texte
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
71/115
Difficultés de la fouille de texte
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
71/115
Difficultés de la fouille de texte
Yo!
J'ai un soucis avec mon Iphone 4S.
Lors d'une synchronisation de mon téléphone pour y charger de la musique celui ci planté,
mettant la totalité de ma bibliothèque down, soit 5000 fichiers et des bananes (j'ai un 64 go)...
J'ai tenté une restauration des paramètre (depuis l'Iphone), c'est mieux , j'ai pu de nouveau
syncroniser mon iphone mais toujours pas de musique, enfin pas depuis mon Iphone, elle est par
contre visible depuis Itunes.
J'ai décidé de repartir de 0 et j'ai deleter toute la musique que j'avais manuellement (depuis
Itunes) mais ma mémoire est toujours encombré (Autre dans la barre de stockage en bas) de
fichiers corrompu (et visiblement ca serait ma musique...)
J'ai dll PhoneClean pour faire du ménage il voit bien les fichiers corrompu mais impossible de
les restaurer ou meme de les supprimer (il indique dans la cathégorie "temps" 0 secondes pour
la totalité des morceaux),je pense que c'est du a la suppression que j'ai effectué depuis Itunes.
Comment puis je faire pour virer ces fichiers corrompu? Dois je tout supprimer le contenue de
ma mémoire et restaurer mon iphone a une date antérieure depuis Itunes(qu'est ce que ca
implique de restaurer son Iphone?)
71/115
Difficultés de la fouille de texte
Préparation de la recette :
Faites cuire les pommes de terre avec leur peau. Épluchez-les et coupez-les en rondelles.
Émincez les oignons puis faites-les revenir avec un peu de beurre. Une fois dorés, y ajouter le
jambon (ou les lardons), ainsi que les pommes de terre. Laissez mijoter 15 min.
Si vous utilisez du vin blanc, c'est le moment de l'ajouter. Salez un peu, poivrez, laissez les
pommes de terre s'imprégner du vin blanc quelques minutes avant de transférer le tout dans un
plat à gratin.
Grattez au couteau les reblochons, coupez-les en 2 dans le sens de l'épaisseur et posez les sur
les pommes de terre.
Faites cuire à four chaud (220°C) pendant 20 à 30 min. Servez avec une salade verte, voire
quelques tomates, juste assaisonnées d'un peu de vinaigre d'échalote.
Boisson conseillée :
Apremont, blanc de savoie sec
72/115
Difficultés de la fouille de texte
Préparation de la recette :
Séparer les blancs des jaunes.
Blanchir les jaunes avec la cassonade à l’aide d’un fouet électrique. Ajouter le mascarpone et
les petits-suisses puis bien fouetter. Ajouter l’alcool.
Monter les blancs en neige et les incorporer délicatement à la spatule au mélange précédent.
Réserver.
73/115
Difficultés de la fouille de texte
(suite)
Saupoudrer de cacao au moment de servir et déguster frais.
Valeurs nutritionnelles :
- protéines : environ 5 g
- lipides : environ 15 g
- glucides : environ 20 g
Remarques :
Cette recette adaptée pour une personne diabétique a été élaborée en collaboration avec les
diététiciennes Jacqueline Delaunay, Céline Benoit et Patricia Fiquet
74/115
Difficultés de la fouille de texte
DISCHARGE MEDICATIONS:
HYDROCORTISONE 2.5% -RECTAL CREAM TP BID
Instructions: Apply to hemorrhoids
BEN-GAY TOPICAL TP BID
Instructions: Apply liberally to legs
Alert overridden: Override added on 9/8/03 by
FACK , PASQUALE DIEGO , M.D.
DEFINITE ALLERGY ( OR SENSITIVITY ) to SALICYLATES
Reason for override: aware
PREMARIN ( CONJUGATED ESTROGENS ) 1.25 MG PO QD
LASIX ( FUROSEMIDE ) 60 MG qam; 40 MG qpm PO BID 60 MG qam
40 MG qpm Starting Today ( 0/29 )
METAMUCIL SUGAR FREE ( PSYLLIUM ( METAMUCIL ) SU... )
1 PACKET PO TID Instructions: With meals
NORVASC ( AMLODIPINE ) 10 MG PO QD
Food/Drug Interaction Instruction
Avoid grapefruit unless MD instructs otherwise.
AMBIEN ( ZOLPIDEM TARTRATE ) 10 MG PO QHS PRN insomnia
75/115
Difficultés de la fouille de texte
76/115
Difficultés de la fouille de texte
77/115
Difficultés de la fouille de texte
Recherche Découverte
78/115
Difficultés de la fouille de texte
Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
79/115
Difficultés de la fouille de texte
Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
79/115
Difficultés de la fouille de texte
Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
79/115
Difficultés de la fouille de texte
Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
79/115
Difficultés de la fouille de texte
Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
régles d’extraction (expression régulières, etc.)
79/115
Difficultés de la fouille de texte
Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
régles d’extraction (expression régulières, etc.)
modèles d’apprentissage obtenus à partir d’un corpus
d’exemples
79/115
Difficultés de la fouille de texte
Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
régles d’extraction (expression régulières, etc.)
modèles d’apprentissage obtenus à partir d’un corpus
d’exemples
apprentissage supervisé (CRF, Arbre de décision, SVM, etc.)
79/115
Difficultés de la fouille de texte
Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
régles d’extraction (expression régulières, etc.)
modèles d’apprentissage obtenus à partir d’un corpus
d’exemples
apprentissage supervisé (CRF, Arbre de décision, SVM, etc.)
apprentissage non-supervisé (règles d’association, k-means,
etc.)
79/115
Difficultés de la fouille de texte
Méthodologie générale
1 Nettoyage et pré-traitement du corpus brut
2 Reconnaissance/annotation des entités nommés (EN) et des
termes
3 Identification de relations entre EN et termes
Dans les deux cas : utilisation de
ressources (terminologies, liste d’entités nommées)
régles d’extraction (expression régulières, etc.)
modèles d’apprentissage obtenus à partir d’un corpus
d’exemples
apprentissage supervisé (CRF, Arbre de décision, SVM, etc.)
apprentissage non-supervisé (règles d’association, k-means,
etc.)
4 Extraction d’information
79/115
Données textuelles
Données textuelles
80/115
Données textuelles
Fouille de texte
Chaîne de traitements
Annotation
Reconnaissance d’entités nommées
des entités
Reconnaissance et extraction de termes
sémantiques
Post-traitements
81/115
Données textuelles
82/115
Données textuelles
Données semi-structurées
83/115
Données textuelles
Exemple
DrugBank
84/115
Données textuelles
Données semi-structurées
85/115
Données textuelles
86/115
Données textuelles
HTML
Page Web
88/115
Données textuelles
HTML
Page Web
<p>Le déploiement de Lollipop sur les appareils de Samsung a été pour
le moins chaotique. Le premier appareil du coréen à disposer de
Lollipop a été le Galaxy S5, dont la mise à jour a été déployée en
janvier dernier. Samsung assure d’ailleurs un suivi exemplaire,
puisqu’une seconde a été mise en ligne quelques jours après, et met le
téléphone à jour vers la version 5.0.2 de Lollipop avec, en plus, un
véritable mode silencieux.</p> <!-- from memcache
see-more-shortcode_264390:Samsung Galaxy S5 : Lollipop est arrivé et
voici les changements qu’il apporte --> <div class="see-more" ><p>
<strong class="see-more-title caps" >En savoir plus :</strong> <a
href="https://www.frandroid.com/marques/samsung/264390_prise-en-main-du-galaxy-s5-de-samsung-sous-lollipop
Galaxy S5 : Lollipop est arrivé et voici les changements qu’il
apporte</a> </p> </div> <p>Le cas des autres appareils de Samsung est
un peu plus flou. On sait que le déploiement de Lollipop sur le Galaxy
Note 4, Galaxy Note 4 Edge, <a
href="//www.frandroid.com/marques/samsung/265050_samsung-galaxy-note-3-lollipop-est-arrive-en-russie"
target="_blank">Galaxy Note 3</a> et le Galaxy S4 est imminent. La ROM
est actuellement déployée <a
href="//www.frandroid.com/marques/samsung/267697_samsung-galaxy-note-4-lollipop-est-aussi-en-coree-du-sud"
target="_blank">en Corée du Sud </a>et <a
href="//www.frandroid.com/marques/samsung/267900_le-samsung-galaxy-note-4-sous-snapdragon-805-recoit-son-t
target="_blank">dans quelques pays de l’Europe de l’Est</a>,
certainement pour la tester et devrait arriver sur les smartphones
occidentaux d’ici quelques jours ou semaines.</p> <p>Il reste enfin
quelques inconnues dans les appareils de Samsung. Le cas du Galaxy
Alpha, pourtant sorti peu de temps avant le Galaxy Note 4, est à ce
jour inconnu. Il serait improbable que Samsung ne le mettre pas à jour
vers Lollipop, mais il n’a jamais communiqué sur le statut de cet
appareil depuis le début de l’année. Même remarque pour la version
Mini du Galaxy S5, dont on ne sait pas quand la mise à jour arrivera
89/115
Données textuelles
90/115
Données textuelles
91/115
Données textuelles
Brochures médicales
92/115
Données textuelles
Notion de corpus
Un corpus
93/115
Données textuelles
Notion de corpus
Un corpus
est une collection de textes
93/115
Données textuelles
Notion de corpus
Un corpus
est une collection de textes
qui sont sélectionnés et organisés
93/115
Données textuelles
Notion de corpus
Un corpus
est une collection de textes
qui sont sélectionnés et organisés
selon des critères linguistiques et sociologiques
93/115
Données textuelles
Notion de corpus
Un corpus
est une collection de textes
qui sont sélectionnés et organisés
selon des critères linguistiques et sociologiques
explicites
93/115
Données textuelles
Notion de corpus
Un corpus
est une collection de textes
qui sont sélectionnés et organisés
selon des critères linguistiques et sociologiques
explicites
pour servir d’échantillon du langage lié à l’application
visée.
93/115
Données textuelles
Linguistique de corpus
94/115
Données textuelles
Types de corpus
Corpus de référence
Corpus spécialisé
Mais aussi, Corpus de presse, de dépêches
95/115
Données textuelles
Corpus de référence
96/115
Données textuelles
Corpus de spécialité
97/115
Données textuelles
98/115
Données textuelles
99/115
Données textuelles
100/115
Données textuelles
scannérisation
collecte auprès des experts
documentation d’une entreprise, d’un service
exploration d’une base de données spécialisée
exploration de l’Internet
101/115
Données textuelles
Caractérisation du domaine :
mots clés, termes centraux du domaine, descripteurs
Garantie de la centralité des documents :
présence des mots clés dans ces documents
Recensement de textes qui véhiculent la connaissance du
domaine :
textes spécialisés
textes pour les non-spécialistes
textes de vulgarisation
(à inclure suivant la tâche)
102/115
Données textuelles
103/115
Données textuelles
104/115
Données textuelles
Corpus Menelas :
genres :
manuels
comptes rendus d’examens et de traitements
lettres aux collègues
domaine :
maladies coronariennes
105/115
Données textuelles
106/115
Données textuelles
107/115
Données textuelles
Corpus I2B2
(I2B2 – Informatics for Integrating Biology and the Bedside)
108/115
Données textuelles
109/115
Données textuelles
Problèmes juridiques
Information confidentielle
Menelas (CRH : maladies coronariennes)
secret médical
Safir (documents divers : cogénération)
données confidentielles d’une entreprise (EDF)
Propriété intellectuelle
droits d’auteur
droits d’annotateurs de corpus
110/115
Données textuelles
Problèmes juridiques
Solutions :
secret médical (Informatique et Liberté)
anonymisation ou dé-identification :
nom du patient
service
date et lieu de naissance
coordonnées du patient
coordonnées du service
date de consultation, d’hospitalisation
nom du médecin
111/115
Données textuelles
Problèmes juridiques
Solutions :
propriété intellectuelle :
extraits
convention
cession de droits, licence d’utilisation, etc.
confidentialité vis-à-vis d’une entreprise :
convention, achat d’une licence
documents « non-sortables »
???
112/115
Données textuelles
Echantillonnage
problèmes juridiques
”équilibrer” en taille les textes
”représenter” une diversité maximale de situations de
communication
ne pas sur-représenter des ”lieux” de textes aux
caractéristiques particulières
problèmes :
comportements hétérogènes des occurrences dans les
documents
113/115
Données textuelles
Documentation
Types d’informations
contexte de production du texte
auteur, date, taille, format, public visé, thème, objectif, etc.
contexte de collecte de corpus
date, responsables, taille, etc.
Enregistrement
dans des tables externes
encodage XML
114/115
Données textuelles
115/115
Données textuelles
Aubin (Sophie) et Hamon (Thierry). –
Improving Term Extraction with Terminological Resources. In : Advances in Natural Language Processing
(5th International Conference on NLP, FinTAL 2006), éd. par Salakoski (Tapio), Ginter (Filip),
Pyysalo (Sampo) et Pahikkala (Tapio). pp. 380–387. –
Springer.
Hamon (Thierry), Nazarenko (Adeline), Poibeau (Thierry), Aubin (Sophie) et Derivière (Julien). –
A Robust Linguistic Platform for Efficient and Domain specific Web Content Analysis. In : Proceedings of
RIAO 2007. –
Pittsburgh, USA, 2007. 15 pages.
115/115
Données textuelles
Hamon (Thierry), Graña (Martin), Raggio (Víctor), Grabar (Natalia) et Naya (Hugo). –
Identification of relations between risk factors and their pathologies or health conditions by mining scientific
literature. In : Proceedings of MEDINFO 2010, pp. 964–968. –
PMID: 20841827.
Hamon (Thierry), Engström (Christopher) et Silvestrov (Sergei). –
Term ranking adaptation to the domain: genetic algorithm based optimisation of the C-Value. In :
Proceedings of PolTAL 2014 – Advances in Natural Language Processing, éd. par Springer , pp. 71–83.
Hamon (Thierry). –
Rapport de Stage à l’UQAM - 19 juin - 21 juillet 2000, octobre 2000.
Hamon (Thierry). –
Acquisition terminologique pour identifier les mots clés d’articles scientifiques. In : Actes de l’atelier DEFT
2012, pp. 25–31. –
115/115
Données textuelles
Grenoble, France, Juin 2012.
Hamon (Thierry). –
Indexation automatique de notices bibliographiques à l’aide d’approches d’acquisition terminologique. In :
Actes de DEFT 2016, pp. 20–26. –
Paris, France, Juillet 2016. Atelier de la conférence JEP-TALN-RECITAL 2016.
Neifar (Wafa), Hamon (Thierry), Zweigenbaum (Pierre), Khemakhem (Mariem Ellouze) et Belguith
(Lamia Hadrich). –
Adaptation of a Term Extractor to Arabic Specialised Texts: First Experiments and Limits. In : Proceedings
of the 17th International Conference on Intelligent Text Processing and Computational Linguistics
(CICLING2016), éd. par Springer .
115/115