Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[BUG] Documents multilingues : mauvaise extraction des codes langue pour le titre, résumés et les mots-clés #8

Closed
eonm-pro opened this issue Mar 15, 2022 · 0 comments · Fixed by #9
Assignees
Labels
bug Something isn't working

Comments

@eonm-pro
Copy link
Member

eonm-pro commented Mar 15, 2022

PPN du document concerné par le bug : 257133615

Décrivez le bug :
L'extraction des codes langue pour le titre les résumés et les mots-clés n'est pas bon : l'anglais est systématiquement choisi.

Le bug se manifeste avec les documents qui ont plusieurs 101$a, mais il touche très probablement d'autres documents. L'extraction de la langue principale et secondaire du document est insuffisante pour inférer la langue du titre ou des résumés ou des mots-clés.

zones unimarc concernées :

  • 101 (langues de la ressource)
  • 200 (titre)
  • 330 (résumés)
  • 541 (titre traduit)
  • 610 (indexation libre)
  • 601-608 (indexation RAMEAU)

zones TEI concernées :

  • title
  • abstract
  • term

Pistes pour la correction

  • Pour la 200 : si une seule 101$a alors la langue de la 200 == 101$a. Dans les autres cas : utiliser la 200$g si présente, utiliser fre par défaut ?
  • Pour les 330 : s'appuyer sur l'ordre des 101$d (comme pour les thèses)
  • Pour la 541 : s'appuyer sur 541$z
  • Pour les 601-608 : l'indexation doit être considérée comme étant en français.
  • Pour les 610 : l'indexation libre doit être considérée comme étant en français. Le GM invite à supprimer les mots-clés libres en langue étrangère s'il n'apportent pas plus d'information ; les thèses STAR n'exportent que les mots-clés en français dans le Sudoc.
@eonm-pro eonm-pro added the bug Something isn't working label Mar 15, 2022
@eonm-pro eonm-pro self-assigned this Mar 15, 2022
@eonm-pro eonm-pro pinned this issue Mar 15, 2022
@eonm-pro eonm-pro changed the title [BUG] Documents multilingue : mauvaise extraction des codes langue pour le titre, résumés et les mots-clés [BUG] Documents multilingues : mauvaise extraction des codes langue pour le titre, résumés et les mots-clés Mar 15, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
1 participant