A quand un export gedcom au format UTF-8 ?

Sur ce forum, toutes les questions relatives à l'utilisation du logiciel de généalogie Généatique peuvent être postées.

Modérateurs: predigny, LEFF, peyroutet47

A quand un export gedcom au format UTF-8 ?

Messagede pguibert » Sam 17 Mar 2018 12:25

Bonjour,

Pour l'export gedcom d'un fichier contenant, au passage, des patronymes avec le caractère spécial ß, j'avais choisi le format ANSEL comme conseillé.
Si les patronymes sont bien exportés dans le fichier gedcom, il en est tout autrement dans le logiciel d'import qui ne les reprend pas du tout. Certaines personnes de la base perdent de ce fait leur nom à l'import.

Le "conseillé" pour le format ANSEL ne semble pas d'actualité. A décharge, un export avec le format Windows n'engendre pas le problème.

Adopter pour l'export gedcom un format universel toutes langues et au goût du jour comme UTF-8 serait peut-être la solution pour éviter de se poser la question de la bonne prise en compte des caractères spéciaux ?

La balle est dans le camp du CDIP.
Pauline

iMac (Retina 4K, 21.5-inch, 2017) - 3,6 GHz Intel Core i7 - 16 Go 2400 MHz DDR4 / Parallels 13.3.0 (43321) - Win10 Pro 64 bits
Dictionnaire des Toponymes de France 1.1 - Photos de Famille 4.1.6.0 - G2018 Prestige à jour
pguibert
 
Messages: 747
Inscription: Mer 31 Oct 2012 20:28

Re: A quand un export gedcom au format UTF-8 ?

Messagede predigny » Sam 17 Mar 2018 12:55

En effet ce format devrait être proposé à l'export ; ça a été demandé plusieurs fois au cdip.
En attendant, une solution avait été proposée d'ouvrir le fichier gedcom dans Notepade et de "l'enregistrer sous" avec le codage UTF-8.
PC : W10 ; Intel Core-i7 à 3,0 GHz, RAM 16 Go, SSD 500Go + DD 1To
predigny
 
Messages: 23560
Inscription: Jeu 6 Déc 2007 16:42

Re: A quand un export gedcom au format UTF-8 ?

Messagede pguibert » Sam 17 Mar 2018 13:13

Bonjour,

predigny a écrit:En effet ce format devrait être proposé à l'export ; ça a été demandé plusieurs fois au cdip.
En attendant, une solution avait été proposée d'ouvrir le fichier gedcom dans Notepade et de "l'enregistrer sous" avec le codage UTF-8.

Merci de votre réponse.

Je vais tester cette solution mais avec un fichier de plus de 155 000 fiches, reprendre l'import dans Heredis est pénible car cela dure un temps certain.
Pauline

iMac (Retina 4K, 21.5-inch, 2017) - 3,6 GHz Intel Core i7 - 16 Go 2400 MHz DDR4 / Parallels 13.3.0 (43321) - Win10 Pro 64 bits
Dictionnaire des Toponymes de France 1.1 - Photos de Famille 4.1.6.0 - G2018 Prestige à jour
pguibert
 
Messages: 747
Inscription: Mer 31 Oct 2012 20:28

Re: A quand un export gedcom au format UTF-8 ?

Messagede pguibert » Dim 18 Mar 2018 09:18

Bonjour,

predigny a écrit:une solution avait été proposée d'ouvrir le fichier gedcom dans Notepade et de "l'enregistrer sous" avec le codage UTF-8.

J'ai fait le test hier avec un export ANSEL comme conseillé puis ouverture du gedcom avec mon éditeur de texte Sublime Text 3 et transformation en UTF-8 tout court.

Résultat, cela ne fonctionne pas correctement. Les caractères accentués sont mal repris dans l'import.

Image

De plus, les illustrations nommées avec caractères accentués ne sont également pas reprises.

La transformation en UTF-8 après un export dans un format autre n'est donc pas la bonne solution.

Cela est logique car le format d'export transforme certains caractères que le format de transformation ne reprend pas "à sa sauce".

Donc si le CDIP voulait bien mettre les mains dans le cambouis, cela nous arrangerait. Cela serait plus utile que certains gadgets qui ont été développés.

Amicalement.
Pauline

iMac (Retina 4K, 21.5-inch, 2017) - 3,6 GHz Intel Core i7 - 16 Go 2400 MHz DDR4 / Parallels 13.3.0 (43321) - Win10 Pro 64 bits
Dictionnaire des Toponymes de France 1.1 - Photos de Famille 4.1.6.0 - G2018 Prestige à jour
pguibert
 
Messages: 747
Inscription: Mer 31 Oct 2012 20:28

Re: A quand un export gedcom au format UTF-8 ?

Messagede jlturbe » Dim 18 Mar 2018 11:38

pguibert a écrit:Pour l'export gedcom d'un fichier contenant, au passage, des patronymes avec le caractère spécial ß, j'avais choisi le format ANSEL comme conseillé.

Au lieu de choisir l'export gedcom en ANSEL vous faites l'export en choisissant ANSI puis avec
notepad ++ (sous windows)
Menu édition /sélectionner tout (CTRL A)
Menu /Encodage /Convertir en UTF-8 sans BOM
L'import devrait bien se passer
-------------------- \I|I/
-------------------- (o o)
---------------oOO--(_)--OOo-----
-----Généatique 2019 Prestige V 1.0.3.4 - Carte de Cassini 2015
-----Généatique 2020 Prestige V 1.8.0.0- Carte de Cassini 2015
Intel Core i9-9900K CPU@3.60 GHz - Win 10 Pro v.2004 (OS 19041.508 - 64 bits) - 32 Go Ram - RX 580
jlturbe
 
Messages: 1646
Inscription: Mer 21 Nov 2012 19:07

Re: A quand un export gedcom au format UTF-8 ?

Messagede pguibert » Dim 18 Mar 2018 12:46

Bonjour,

jlturbe a écrit:Au lieu de choisir l'export gedcom en ANSEL vous faites l'export en choisissant ANSI puis avec
notepad ++ (sous windows)
Menu édition /sélectionner tout (CTRL A)
Menu /Encodage /Convertir en UTF-8 sans BOM
L'import devrait bien se passer

Je vous remercie beaucoup de m'indiquer cette procédure.

Je me demande pourquoi le format ANSEL est conseillé par le CDIP plutôt qu'un autre.

Amicalement.
Pauline

iMac (Retina 4K, 21.5-inch, 2017) - 3,6 GHz Intel Core i7 - 16 Go 2400 MHz DDR4 / Parallels 13.3.0 (43321) - Win10 Pro 64 bits
Dictionnaire des Toponymes de France 1.1 - Photos de Famille 4.1.6.0 - G2018 Prestige à jour
pguibert
 
Messages: 747
Inscription: Mer 31 Oct 2012 20:28

Re: A quand un export gedcom au format UTF-8 ?

Messagede dan_69007 » Lun 19 Mar 2018 16:55

ANSEL est l'encodage préféré par la norme GEDCOM, utiliser UTF-8 expose à des aléas imprévisibles ! voilà pourquoi :
cf. wikipedia :
GEDCOM
La spécification GEDCOM pour l'échange de données généalogiques fait référence à ANSEL (ANSI/NISO Z39.47-1985) comme un format d'encodage valide pour les fichiers GEDCOM et l'étend avec des caractères additionnels présentés dans la table ci-dessous:

Hex Unicode Glyph Description
0xBE 25A1 □ boîte vide
0xBF 25A0 ■ boîte pleine
0xCD 0065 e midline e
0xCE 006F o midline o
0xCF 00DF ß es zet
0xFC 0338 ̸ slash diacritique sur caractère
Daniel, 69007
Généatique 2018-v1.0.7 sur W10/64
dan_69007
 
Messages: 293
Inscription: Ven 7 Déc 2012 19:09

Re: A quand un export gedcom au format UTF-8 ?

Messagede Jean Costet » Lun 19 Mar 2018 17:47

Pour "pguibert""
Bonjour,
Vous dites que le codage UTF-8 ne marche pas sur Genenet pour certains caractères et vous en donnez la preuve. Je l'utilise moi-même sans problème depuis dix ans. Nous sommes sérieux tous les deux Je pense avoir trouvé ce qui pourrait être une explication.

Il y a deux sortes de codage UTF-8, avec ou sans BOM (trois caractères ajoutés au début du texte). Windows crée des fichiers UTF-8 avec BOM. Or Geneanet ne sait pas lire les fichiers avec BOM, par contre il est à l'aise avec les fichiers de l'autre catégorie les fichiers sans BOM. Si vous avez envoyé à Geneanet un fichier avec BOM vous devez avoir le résultat que vous avez montré.

Pour fabriquer un fichier sans BOM lisible par Geneanet je commence par fabriquer avec Word ou Notepad un fichier avec BOM. Puis avec un lecteur hexadécimal je supprime les trois premiers caractères (le BOM) et envoie le tout à Geneanet; cela marche sans problème. C'est gratuit et assez simple.

Il serait souhaitable bien sûr que le CDIP fasse ce travail à notre place.

J'avais essayé une position de repli avec l'ANSI (alias Windows). Ce codage ANSI sait traiter les æ et œ et leurs majuscules. Malheureusement Geneanet sait lire dans ce codage les æ mais pas les œ ! Plus de sœurs ni de cœurs passe encore mais pour moi qu ai un ancêtre Lebœuf c'est rédhibitoire d'où mon attachement à UTF-8.

Jean Costet (sur Geneanet lardechois)
Jean Costet
 
Messages: 136
Inscription: Jeu 4 Nov 2004 11:24
Localisation: Lyon (Rhône)

Re: A quand un export gedcom au format UTF-8 ?

Messagede pguibert » Lun 19 Mar 2018 18:59

Bonsoir,

dan_69007 a écrit:ANSEL est l'encodage préféré par la norme GEDCOM, utiliser UTF-8 expose à des aléas imprévisibles ! voilà pourquoi :
cf. wikipedia :
GEDCOM
La spécification GEDCOM pour l'échange de données généalogiques fait référence à ANSEL (ANSI/NISO Z39.47-1985) comme un format d'encodage valide pour les fichiers GEDCOM et l'étend avec des caractères additionnels présentés dans la table ci-dessous:

Hex Unicode Glyph Description
0xBE 25A1 □ boîte vide
0xBF 25A0 ■ boîte pleine
0xCD 0065 e midline e
0xCE 006F o midline o
0xCF 00DF ß es zet
0xFC 0338 ̸ slash diacritique sur caractère

Je vous remercie pour ces précisions.

Amicalement.
Pauline

iMac (Retina 4K, 21.5-inch, 2017) - 3,6 GHz Intel Core i7 - 16 Go 2400 MHz DDR4 / Parallels 13.3.0 (43321) - Win10 Pro 64 bits
Dictionnaire des Toponymes de France 1.1 - Photos de Famille 4.1.6.0 - G2018 Prestige à jour
pguibert
 
Messages: 747
Inscription: Mer 31 Oct 2012 20:28

Re: A quand un export gedcom au format UTF-8 ?

Messagede pguibert » Lun 19 Mar 2018 19:19

Bonsoir,

Jean Costet a écrit:Pour "pguibert""
Vous dites que le codage UTF-8 ne marche pas sur Genenet

Je vous remercie de votre réponse.

Je n'ai pas évoqué Geneanet mais l'export gedcom depuis Généatique pour un import dans un autre logiciel de généalogie.

Jean Costet a écrit:Pour fabriquer un fichier sans BOM lisible par Geneanet je commence par fabriquer avec Word ou Notepad un fichier avec BOM. Puis avec un lecteur hexadécimal je supprime les trois premiers caractères (le BOM) et envoie le tout à Geneanet; cela marche sans problème. C'est gratuit et assez simple.

Je vous remercie pour cette procédure que je note immédiatement dans mon petit carnet.

Jean Costet a écrit:Il serait souhaitable bien sûr que le CDIP fasse ce travail à notre place.

Je ne peux qu'acquiescer. :)

Jean Costet a écrit:J'avais essayé une position de repli avec l'ANSI (alias Windows). Ce codage ANSI sait traiter les æ et œ et leurs majuscules. Malheureusement Geneanet sait lire dans ce codage les æ mais pas les œ ! Plus de sœurs ni de cœurs passe encore mais pour moi qu ai un ancêtre Lebœuf c'est rédhibitoire d'où mon attachement à UTF-8.

Ce que j'ai fait hier soir : export ANSI puis ouverture du gedcom dans un éditeur de texte, changement de 1 CHAR ANSI par 1 CHAR UTF-8 et enregistrement du gedcom au format UTF-8.
Pour l'instant je n'ai pas trouvé d'anomalie mais il faut que vérifie encore pendant un temps pour être sûre.

Il faut que je cherche si j'ai des personnes avec œ dans leur patronyme. :wink:

Bonne soirée.
Pauline

iMac (Retina 4K, 21.5-inch, 2017) - 3,6 GHz Intel Core i7 - 16 Go 2400 MHz DDR4 / Parallels 13.3.0 (43321) - Win10 Pro 64 bits
Dictionnaire des Toponymes de France 1.1 - Photos de Famille 4.1.6.0 - G2018 Prestige à jour
pguibert
 
Messages: 747
Inscription: Mer 31 Oct 2012 20:28


Retourner vers Forum Généatique 2020 - Logiciel de généalogie

 


  • Articles en relation
    Réponses
    Vus
    Dernier message

Qui est en ligne

Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 17 invités

cron