Study Group in French

Bravo JM !
Comment ce fait-il qu’il y ait juste un rond rouge au milieu plutôt que toute la plante couverte par un maque rouge ? C’est du post-traitement ?

J’ai justement utilisé ResNet / UNet et fastai (v0.7) pour la compétition Kaggle Airbus https://www.kaggle.com/c/airbus-ship-detection
Je suis dans le top 100 mais sans trop de mérite car j’ai utilisé du code publié par un participant que j’ai simplement entraîné du mieux que j’ai pu…
Voici le source : https://github.com/trancept/kaggle-airbus-ship

Je pourrais vous parler de recommandation si ça vous intéresse car c’est une partie de mon boulot.

Est-ce que certains sont intéressés par le NLP ? On pourrait adapter ce qu’a présenté Jeremy au français.

super - ton video er bien convaincant

qui parlons vendre di - j’ai trouver (et telecharge) en jeux de text de la commision europeenn: https://ec.europa.eu/jrc/en/language-technologies/dgt-acquis

Merci Benoit et Kaspar! Le rond rouge est la sortie directe du modèle : l’objectif est de déterminer l’emplacement du pied et non la plante entière. Ce n’est donc pas vraiment de la segmentation même si les techniques utilisées sont les mêmes.

Je suis intéressé si tu pouvais nous parler de recommandation! (j’espère avoir le temps de voir le cours 4 avant vendredi soir)

Tu veux dire que tu n’as labellisé que les pieds ? Comme si tu n’avais labellisé que les roues pour détecter des voitures ?
C’est une super idée je trouve, ça fait gagner beaucoup de temps de labellisation !!!

@Kaspar J’ai justement assisté à une conférence où ils utilisaient les transcriptions en différentes langues du parlement pour entraîner un modèle NLP de traduction automatique ( https://www.limsi.fr/en/research/tlp/topics/topic5 ).
En cherchant les références je suis tombé sur cet article de blog qui fait la même chose : https://machinelearningmastery.com/prepare-french-english-dataset-machine-translation/

J’ai entrainé ULMFit pour avoir un modèle de langage français et je l’ai appliqué à des tâches de classifications.
Vous pouvez voir les résultats sur ce thread: ULMFiT - French
Les résultats sont très prometteurs.

Je vais bientôt publier le code sur github.

2 Likes

tres interessent
Combine de temps est-ce que vous avec mis pour le metre en ouvre.
Du telechargement au resultat des entrainement?

j’essai d’estimer le temps créer en ulmfit sur les textes de l’union europenne.

Avec la dernière version de fastai, c’est devenu très simple de le mettre en œuvre. Ça demandait plus de travail sur les versions précédentes.
Il faut quand même prévoir un bon temps d’entraînement du modèle de langage avec un GPU performant (~10/20h minimum avec une 1080ti).
Par contre, une fois que le modèle de langage est entraîné, c’est très rapide de s’en servir pour entraîner un modèle de classification.
Je vais d’ailleurs publier les poids du modèle, ça permettra de s’en servir comme base, pour faire comme dans le dernier cours (sans devoir tout ré-entraîner sur un gros corpus de texte).

super donc on dirait que 1-2 semaines suffit pour fair quelque chose d’interessent ?
Je pense de traite le corpus de text danois (il fait 600 mb). je pense que le corpus francais fait 50% de plus.
Est-ce que tu viens au hangout ce soir a 21 heur (zone paris) ?

Je ne peux pas ce soir.
Mais je peux essayer de venir la semaine prochaine pour en discuter.

super

Oui c’est exactement ça, je n’ai labellisé que les pieds, c’est beaucoup plus rapide!

Interview très intéressante, merci beaucoup !

benoit est-ce tu vase envoyer un lien på le hangout ?

Le voici https://hangouts.google.com/call/2roo7kSA96msHnwth6r0AEEI !

Wikipedia in plain text : http://kopiwiki.dsd.sztaki.hu/

Le projet Gutenberg héberge des livres du domaine public :

Il est possible de récupérer les archives:
http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=fr&offset=100

Code source pour l’automatiser:
https://www.exratione.com/2014/11/how-to-politely-download-all-english-language-text-format-files-from-project-gutenberg/

Autres sources de textes :

merci