• Bienvenue sur la nouvelle version du forum Guide de généalogie,

    Si vous avez du mal à vous connecter, faites une demande de réinitialisation de mot de passe : Réinitialiser mon mot de passe
  • Découvrez la nouvelle section du forum : Réalisations dans Généatique. Montrez et partagez vos créations d'arbres dans Généatique !
    Et participez au concours !

[Résolu et suite ....]Comparaison de fichiers

Membre actif
Bonjour,

Lorsqu'on compare deux fichiers, A et B, on peut facilement trouver les doublons. C'est un peu ardu, mais on y arrive.

Par contre, je ne pense pas qu'on puisse comparer deux fichiers et trouver les fiches qui, par exemple existent dans B, mais pas dans A.

Cette comparaison pourrait permettre :
- soit d'ajouter directement les fiches dans A, avec un marqueur spécial, pour qu'on puisse les retrouver et refaire les liens si nécessaire, les conserver telles qu'elles (en supprimant le marqueur) ou les supprimer
- soit enregistrer les fiches trouvées dans un troisième fichier C, pour permettre un travail ultérieur, fiche par fiche.

Qu"en pensez-vous ?
 
Bonsoir,
Pour le marqueur spécial, il y a le champ "origine de la donnée" qui peut être forcé avec une valeur (à choisir) via le dictionnaire de données (pour toutes les fiches, ou pour une partie avec une condition).
 
Trouver les fiches en commun : oui mais trouver celle qui ne sont pas en commun ,je ne crois pas que l'on puisse le faire ; l'opération est plus complexe qu'il n'y parait. Mais je comprends cette demande ; je développe ma généalogie et mon épouse la sienne mais l'on a beaucoup de chose en commun (dans ces généalogie...) et j'aimerais bien qu'un utilitaire me dise quelles sont les différences entre nos deux généalogies.
Voyons tout de même s'il n'y a pas moyen de faire quelque chose, en se limitant aux personnes ayant un "lien quelconque" avec l'arbre principal :
- J'ai deux généalogies A et B
- Je sauvegarde A et B
- J'ai une donnée "FLAG" de type texte que je positionne à A pour toutes les fiches de la généalogie A
- J'ajoute à la généalogie A toutes les fiches de la généalogie B
- Je fusionne les doublons ; c'est la partie critique.
- Je recherche toutes les fiches qui ne sont pas marquées FLAG=A
- Les fiches trouvées sont celle qui existent dans B et qui n'existent pas dans A

Symétriquement, on peut refaire la même chose pour la généalogie B (et la Généalogie A restaurée). On aura alors la liste des fiches qui existent dans A et qui n'existent pas dans B.
En pratique... je n'ai pas essayé :D
 
@predigny : oui, je comprends la manip. Mais dans mon cas précis, l'une des généalogies a 11000 personnes et l'autre 22000.

C'est la partie "Recherches des doublons" qui m'affole et que j'aimerais squizzer. Vous imaginez le boulot ! :shock:

Mais en théorie, cela doit marcher ....
 
campagne27":3u6kbobr a dit:
...C'est la partie "Recherches des doublons" qui m'affole et que j'aimerais squizzer. Vous imaginez le boulot ! :shock: ...
C'est pourquoi je proposais de limiter cette recherche à l'arbre principal et tout ce qui y est raccordé. Dans ce cas, il devrait suffire de fusionner que très peu de personnes, idéalement une seule et les autres fusions s'enchaîneront automatiquement si les généalogies A et B sont cohérentes entre elles ; mais c'est vrait qu'il vaudrait mieux avoir un "tronc" commun pour faciliter ces fusions.
Vous avez compris le principe, je n'en vois pas d'autres.
 
J'ai eu un info qui répond à ma question, avec Visuged (logiciel gratuit).
Le plus difficile, c'est d'arriver à l'ouvrir, car Windows 10 et l'antivirus ont tenté de faire barrage.
Il y a une fonction de comparaison de 2 gedcoms, par différence. Le liste sort en fichier texte. Je vais voir ce que cela donne.
 
On est intéressé par le résultat car c'est un vrai problème. Il est probable que le listing des différences doit être assez difficile à interpréter mais s'il n'y a pas trop de différences entre les deux généalogies c'est peut-être jouable.
 
Alors, le résultat. Le plus difficile c'est de passer les barrières "anti-tout-ce-qu'on veut" du système et de l'antivirus.
(J'avais analysé les fichiers avant de les dézipper). Ensuite, c'est très rapide !

- gedcom A = 11000 personnes
- gedcom B = 7700 personnes

Je demande une comparaison par différence, et j'obtiens 4226 taguées A et 777 taguées B, c'est à dire 4226 fiches qui sont dans le fichier A mais pas dans le B et 777 qui sont dans le fichier B et pas dans le A (ou l'inverse ...). C'est un fichier texte :

comparaison.JPG

Il est tard, et je n'ai pas vérifié la réalité des choses; ce sera pour + tard, mais vraiment, simple et rapide ! Etonnant.
 
Ca semble en effet très intéressant. Voilà une fonction qui serait intéressante d'intégrer à Généatique. Il serait intéressant que ce logiciel sorte aussi ce qui est commun aux deux généalogies.
Je note ce sujet dans mes "Favoris" sur les problèmes/solutions de Généatique.
 
Je me demande si il ne serait pas judicieux de créer un thème dans l'arborescence où chacun pourrait poster les améliorations souhaitées.
Au fil des commentaires, on pourrait ainsi voir celles qui sont partagées par tous et celles plus anecdotiques.
Et cela pourrait etre une bonne piste pour le CDIP pour ses versions à venir.
Qu'en pensez vous ?
 
jmambro":7911o2ms a dit:
Je me demande si il ne serait pas judicieux de créer un thème dans l'arborescence où chacun pourrait poster les améliorations souhaitées.
...Qu'en pensez vous ?
Ca a déjà été tenté de nombreuses fois et à chaque fois ça dégénère vers quelque chose d'inexploitable qui ressemble à un "bistro de la suggestion". Je pense qu'il vaut mieux exprimer ses idées dans divers sujets où ces idées seront bien "en situation". Les bonnes idées seront notées par le cdip ou par des utilisateurs et elles ressortiront.
 
Voici une autre possibilité de Visuged : la recherche d'erreurs.

visuged 2.JPG

C'est aussi possible dans Geneatique; mais Visuged est ultra-rapide. Pour cela, j'ai exporté ma généalogie en gedcom extra-simple, uniquement les NMD, rien d'autre. Visuged ne s'embarrasse pas de fioritures. Si on a une date "vers 1750", il prend 1750, et pas entre 1748 et 1752, ou autre.... C'est la raison de la rapidité. J'ai retrouvé des groupes isolés, que je n'arrivais pas à trouver dans G2017. Pour travailler, j'ouvre Visuged et Généatique, je note le nom de l'erreur potentielle, puis je vais dans G et je choisis de garder ou pas la fiche, ou de faire les corrections. 1000 fois plus rapide que la recherche des incohérences ... qui souvent ne sont pas incohérentes (un autre fil a été consacré à ce sujet).

G2017 fait parfois trop bien ! Je comprends, mais il faudrait ajouter des critères de choix dans les incohérences, comme par exemple "prendre les données brutes de décoffrage" ... Ensuite à nous de choisir si on garde ou pas.

PS : Un autre exemple, la recherche des doublons. J'ai des litanies de Nehlig Johann "quelquechose", tous nés dans la même période et au même endroit. La recherche de doublons avec G prend donc un temps fou, et le + souvent les doublons trouvés n'en sont pas.. Visuged, lui, prend le nom+les deux prénoms+dates NMD, et va très vite. Résultat = 0 doublons !
 
predigny":3oodr4je a dit:
Ca semble en effet très intéressant. Voilà une fonction qui serait intéressante d'intégrer à Généatique. Il serait intéressant que ce logiciel sorte aussi ce qui est commun aux deux généalogies.
Je note ce sujet dans mes "Favoris" sur les problèmes/solutions de Généatique.

Je reprends votre message, car je suis mitigée. Si cette fonction est intégrée dans G, elle risque de souffrir de la même difficulté que la recherche de doublons : à savoir des critères trop larges, qui sont peut-être pertinents, mais allongent considérablement le temps de recherche.

Il faudrait dans ce cas pouvoir choisir que la recherche se fasse :
- sur le nom et tous les prénoms, sans aucune équivalence
- sur les dates, sans élargissement à 2 ou 3 années autour
- sur les lieux, sans aucun changement.

Je dis "choisir", c'est à dire que je n'exclus pas d'avoir les critères actuels, mais ajouter des critères beaucoup plus restrictifs.
 
predigny":2jxzxfxg a dit:
jmambro":2jxzxfxg a dit:
Je me demande si il ne serait pas judicieux de créer un thème dans l'arborescence où chacun pourrait poster les améliorations souhaitées.
...Qu'en pensez vous ?
Ca a déjà été tenté de nombreuses fois et à chaque fois ça dégénère vers quelque chose d'inexploitable qui ressemble à un "bistro de la suggestion". Je pense qu'il vaut mieux exprimer ses idées dans divers sujets où ces idées seront bien "en situation". Les bonnes idées seront notées par le cdip ou par des utilisateurs et elles ressortiront.
OK
 

gratuit

Retour
Haut