Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Corrections diverses sur Corpora Creator #20

Open
3 tasks
lissyx opened this issue Mar 5, 2019 · 4 comments
Open
3 tasks

Corrections diverses sur Corpora Creator #20

lissyx opened this issue Mar 5, 2019 · 4 comments
Labels
cvfr-cc Corpora Creator help wanted Extra attention is needed

Comments

@lissyx
Copy link
Collaborator

lissyx commented Mar 5, 2019

cf le travail de @nicolaspanel common-voice/CorporaCreator#87

Quelques éléments :

  • Identifier les séquences / phrases incorrectes
  • Adapter CorporaCreator pour les corriger (si possible) ou les refuser (sinon) : Rejet des abbréviations #21
  • Remonter / corriger le texte source de Common Voice
@lissyx lissyx added cvfr-cc Corpora Creator help wanted Extra attention is needed labels Mar 5, 2019
@drzraf
Copy link

drzraf commented Dec 31, 2020

Pourquoi common-voice/CorporaCreator#87 n'a-t-il finalement jamais été mergé malgré le travail entrepris ?

@lissyx
Copy link
Collaborator Author

lissyx commented Dec 31, 2020

Pourquoi mozilla/CorporaCreator#87 n'a-t-il finalement jamais été mergé malgré le travail entrepris ?

Parce qu'il y avait encore du travail, et que la personne qui le faisait ne bosse plus autour de ces thématiques et que personne n'a repris la suite.

@CapitainFlam
Copy link

CapitainFlam commented Sep 6, 2022

PS : I'am a noob, please don't shoot neither shout at me 😅

@lissyx
Juste pour clarifier,
il s'agit "juste" de supprimer/modifier les quelques lignes en commentaire de @kdavis-mozilla dans https://github.com/common-voice/CorporaCreator/pull/87/files/149e960692bdc734ccb56e13ff7e71ba4c96f8ae ?

Parce que, si je suis incapable n'ai pas encore codé en python, ni réalisé de commit, et bien, en relisant le code, les commentaires et les discussions, je pense que 99% du boulot est fait, non ?
Sous entendu, si on fait que ce propose @kdavis-mozilla, en supprimant le code mort et en commentant le code pour les chiffres (pour le jour où les chiffres reviennent), ça pourrait le faire ?

...et au pire on ouvre une nouvelle issue pour ce qui n'est pas encore implémenté, mais le système de contrôle / correction des abréviation est bon, non ?

ou en fait, le code d'il y a deux ans a tellement changé depuis qu'on n'a plus qu'à tout jeter ? (le bébé avec l'eau du bain) et/ou repartir from scratch ?

Edit : erreur de clic, commentaire envoyé trop vite 😅 ...Je termine.

@lissyx
Copy link
Collaborator Author

lissyx commented Sep 6, 2022

@CapitainFlam Oui il suffirait de faire ça sauf que:

  • kelly travaille maintenant sur Coqui (c'était mon manager sur DeepSpeech), donc n'est plus directement impliqué sur CorporaCreator (je sais pas trop qui gère?)
  • le code a sûrement beaucoup changé, il faut probablement vérifier quel est l'état actuel et voir si tout ce qui avait été proposé est pertinent

Donc pas sûr que tout soit à jeter, il faut regarder en détails

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
cvfr-cc Corpora Creator help wanted Extra attention is needed
Projects
None yet
Development

No branches or pull requests

3 participants