Classement et définition de priorité des moteurs d'analyse. SAP BusinessObjects Data Services 4.1 Support Package 1
Qualité des données
Rubriques associées
•
Configurations de transformation
•
Editeurs de transformation Qualité des données
•
Ajout d'une transformation de qualité des données à un flux de données
16.2.4 Classement et définition de priorité des moteurs d'analyse
Pour les entrées multilignes, il est possible de configurer la transformation Data Cleanse pour utiliser uniquement des analyseurs spécifiques et pour indiquer l'ordre dans lequel ils sont exécutés. Le fait de sélectionner soigneusement les analyseurs à utiliser et dans quel ordre peut être bénéfique. Le fait d'éteindre les analyseurs dont vous n'avez pas besoin améliore significativement la vitesse d'analyse et réduit les chances que les données soient mal analysées.
Il est possible de modifier l'ordre des analyseurs pour une entrée multiligne spécifique en modifiant l'option de séquence d'analyseur correspondante dans le groupe des options Configuration_Analyseur de la transformation Data Cleanse. Par exemple, pour modifier l'ordre des analyseurs pour le champ d'entrée Multiligne1, modifiez l'option Sequence_analyseur_Multiligne1.
Pour modifier les analyseurs sélectionnés ou l'ordre des analyseurs, sélectionnez une séquence d'analyseur, cliquez sur OK sur le message puis utilisez la fenêtre "Options classées" pour effectuer les modifications.
Rubriques associées
•
16.2.5 Données d'analyse
La transformation Data Cleanse peut identifier et isoler une large variété de données. Dans la transformation Data Cleanse, vous mappez les champs d'entrée des données aux champs d'entrée appropriés dans la transformation. Les données personnalisées contenant des données opérationnelles ou de produit sont toujours mappées aux champs multilignes. Les données personnelles et professionnelles, les données de téléphone, adresse électronique, date et numéro de sécurité sociale peuvent être mappées aux champs d'entrée ou aux champs d'entrée multilignes.
L'exemple ci-dessous indique la manière dont Data Cleanse analyse les données de produit à partir d'un champ d'entrée multiligne et les affiche dans les champs de sortie discrets. Les données peuvent
également être affichées dans des champs composites, tels que “Description standard”, qui peuvent
être personnalisés dans le Générateur de packages de nettoyage des données pour répondre à vos besoins.
382 2012-11-22
Qualité des données
Données d'entrée
Gant ultra grip profit 2.3 grand noir cuir synthétique élastique avec Velcro
Mechanix Wear
Données analysées
Catégorie du produit
Taille
Matière
Marque déposée
Style de poignet
Type de la paume
Couleur
Fournisseur
Description standard
Gant
Grand
Cuir synthétique
Pro-Fit 2.3 Series
Velcro élastique
Ultra-Grip
Noir
Mechanix Wear
Gant - cuir synthétique, noir, taille : grand, Style de poignet :
Velcro élastique, Ultra-Grip,
Mechanix Wear.
L'exemple ci-dessous indique la manière dont Data Cleanse analyse les données de nom et de société, et les affiche dans les champs de sortie discrets. Les données peuvent également être affichées dans des champs composites qui peuvent être personnalisés dans le Générateur de packages de nettoyage des données pour répondre à vos besoins.
Données d'entrée Données analysées
Titre de civilité
M. Dan R. Smith, Jr., Responsable des comptes, expertcomptable agréé. Jones Inc.
Prénom 1
Prénom 2
Nom de famille
Titre de maturité
Titre honorifique
Fonction
Société
M.
Dan
R.
Smith
Jr.
Expert-comptable agréé
Responsable des comptes
Jones, Inc.
383 2012-11-22
Qualité des données
Données d'entrée
James Witt 421-55-2424 jwitt@rdrindustries.com 507-
555-3423 20 Aout 2003
Données analysées
Prénom 1
Nom de famille
Sécurité sociale
Adresse électronique
Téléphone
Date
James
Witt
421-55-2424 jwitt@rdrindustries.com
507.555.3423
20 août 2003
La transformation Data Cleanse analyse jusqu'à 6 noms par enregistrement, 2 par champ d'entrée.
Pour les six noms trouvés, elle analyse les composants tels que le titre de civilité, les prénoms, le nom de famille et le suffixe du nom. Elle envoie ensuite les données vers les champs individuels La transformation Data Cleanse analyse également jusqu'à 6 titres par enregistrement.
La transformation Data Cleanse analyse jusqu'à 6 noms de société par enregistrement,1 par champ d'entrée.
16.2.5.1 Analyse des numéros de téléphone
Data Cleanse peut analyser le plan de numérotation nord-américain (NANP) et les numéros de téléphone internationaux. Lorsque Data Cleanse analyse un numéro de téléphone, il édite les composants individuels du numéro dans les champs appropriés.
Les systèmes de numérotation téléphonique sont différents à travers le monde. Data Cleanse reconnait les numéros de téléphone par leur modèle et également par leur indicatif du pays (pour les numéros hors NANP).
Data Cleanse recherche les numéros de téléphone d'Amérique du Nord à l'aide de modèles communément utilisés, tels que (234) 567-8901, 234-567-8901 et 2345678901. Data Cleanse donne la possibilité de modifier le format à la sortie (choix du séparateur, par exemple).
Data Cleanse recherche les numéros de téléphone non nord-américains par modèle. Les modèles utilisés sont indiqués dans le générateur de packages de nettoyage des données dans l'onglet Données
de référence. L'indicatif du pays doit apparaitre au début du numéro. Data Cleanse n'offre pas la possibilité de modifier le format des numéros de téléphone internationaux. De plus, Data Cleanse n'effectue pas une comparaison croisée avec les adresses pour voir si les indicatifs du pays et de la ville du numéro de téléphone correspondent à l'adresse.
Rubriques associées
•
384 2012-11-22
Qualité des données
16.2.5.2 Analyse des dates
Data Cleanse reconnait les dates dans de nombreux formats et les décompose en composants.
Data Cleanse peut analyser jusqu'à six dates de l'enregistrement défini. C'est-à-dire que Data Cleanse identifie jusqu'à six dates à l'entrée, les décompose dans des composants, et les rend disponibles en sortie, soit dans le format d'origine, soit dans le format standard sélectionné par l'utilisateur.
Rubriques associées
•
385
16.2.5.3 Analyse des numéros de sécurité sociale des Etats-Unis
Data Cleanse analyse les numéros de sécurité sociale des Etats-Unis qui sont seuls ou sur une ligne d'entrée entourés d'un autre texte.
Champs utilisés
Data Cleanse édite chaque composant d'un numéro de sécurité sociale analysé, c'est-à-dire l'ensemble du numéro, la zone, le groupe et la série.
Comment Data Cleanse analyse les numéros de sécurité sociale.
Data Cleanse analyse les numéros de sécurité sociale selon les étapes suivantes :
1.
Il identifie un numéro de sécurité sociale potentiel en regardant les modèles suivants :
Modèle
nnnnnnnnn nnn nn nnnn nnn-nn-nnnn
Chiffres par groupe
9 chiffres consécutifs
3, 2 et 4 (pour zone, groupe et série)
3, 2 et 4 (pour zone, groupe et série)
Délimité par
non applicable espaces
Tous les séparateurs pris en charge
2.
Il effectue un contrôle de validité sur les cinq premiers chiffres uniquement. Les résultats possibles de ce contrôle de validité sont :
Résultat Description
Réussite
Data Cleanse a analysé les données et le numéro de sécurité sociale est édit dans un champ de sortie de numéro de sécurité sociale.
2012-11-22
Qualité des données
Résultat
Echoué
Description
Data Cleanse n'a pas analysé les données parce qu'il ne s'agit pas d'un numéro de sécurité sociale tel que défini par le gouvernement américain. Les données sont sorties comme des données supplémentaires, non analysées.
Contrôle de la validité
Lors d'un contrôle de validité, Data Cleanse ne vérifie pas qu'un numéro de sécurité sociale à 9 chiffres particulier soit émis, ou qu'il s'agisse du bon numéro pour la personne nommée. Il valide à la place les
5 premiers chiffres (zone et groupe). Data Cleanse ne valide pas les 4 derniers chiffres (série), sauf pour confirmer que ce sont des chiffres.
Données des Administrations de sécurité sociale
Data Cleanse valide les cinq premiers chiffres en fonction d'une table de l'Administration de la Sécurité
Sociale ( http://www.socialsecurity.gov/employer/ssns/HGJune2411_final.txt
). Les règles et les données qui guident ce contrôle sont disponibles sur http://www.ssa.gov/history/ssn/geocard.html
. Les informations sur le numéro de sécurité sociale référencées par Data Cleanse sont inclues dans le package de nettoyage des données.
Sorties de numéros de sécurité sociale valides
Data Cleanse sort uniquement les numéros de sécurité sociale qui ont réussi la validation. Si un numéro de sécurité sociale apparent échoue la validation, Data Cleanse ne transmet pas le numéro comme un numéro de sécurité sociale analysé, mais comme un numéro non valide.
Rubriques associées
• Guide de référence : transformations, champs de sortie Data Cleanse
386
16.2.5.4 Analyse des adresses électroniques
Lorsque Data Cleanse analyse des données d'entrée qu'il détermine être une adresse électronique, il place les composants de ces données dans des champs spécifiques pour la sortie. Ci-dessous se trouve un exemple d'une adresse électronique simple : joex@sap.com
En identifiant les différents composants des données (nom d'utilisateur, hôte, etc.) par leur relation entre eux, Data Cleanse peut affecter les données à des attributs spécifiques (champs de sortie).
Champs de sortie utilisés par Data Cleanse
Data Cleanse édite les composants individuels d'une adresse électronique analysée, c'est-à-dire le nom d'utilisateur du courrier électronique, le nom de domaine complet, le domaine principal, le deuxième domaine, le troisième domaine, le quatrième domaine, le cinquième domaine et le nom de l'hôte.
2012-11-22
Qualité des données
Ce que fait Data Cleanse
Data Cleanse peut exécuter les actions suivantes :
• Analyser une adresse électronique située dans un champ discret ou combinée avec d'autres données dans un champ multiligne.
• Répartir le nom du domaine dans ses sous-éléments.
• Vérifier que l'adresse électronique se trouve dans le bon format.
• Indiquer que l'adresse inclut un fournisseur d'accès à internet (FAI) ou un nom de domaine de courrier électronique référencé dans le type de courrier électronique des données de référence dans
Data Cleanse. Cet indicateur est affiché dans le champ de sortie Email_is_ISP.
Ce que Data Cleanse ne vérifie pas
Plusieurs aspects d'une adresse électronique ne sont pas vérifiés par Data Cleanse. Data Cleanse ne vérifie pas :
• si le nom du domaine (la partie à droite du signe @) est enregistré.
• si un serveur de courrier électronique est activé à cette adresse.
• si le nom d'utilisateur (la partie à gauche du signe @) est enregistré sur ce serveur de courrier
électronique (le cas échéant).
• si le nom personnel dans l'enregistrement peut être atteint à cette adresse électronique.
Composants d'adresse électronique
Le champ de sortie dans lequel Data Cleanse place les données dépend de la position des données dans l'enregistrement. Data Cleanse suit le système de nom de domaine (DNS) pour déterminer le bon champ de sortie.
Par exemple, si expat@london.home.office.city.co.uk correspondait à des données d'entrée,
Data Cleanse éditerait les éléments dans les champs suivants :
Champs de sortie
Adresse électronique
Utilisateur_Email
Domaine_Messagerie_Complet
Domaine_Messagerie_Principal
Domaine_Messagerie_Deuxième
Domaine_Messagerie_Troisième
Domaine_Messagerie_Quatrième
Domaine_Messagerie_Cinquième
Domaine_Messagerie_Hôte
Valeur de sortie
expat@london.home.office.city.co.uk
expat london.home.office.city.co.uk
uk co city office home london
387 2012-11-22
Qualité des données
Rubriques associées
•
16.2.5.5 Analyse des modèles définis par l'utilisateur
Data Cleanse peut analyser les modèles trouvés dans une grande variété de données telles que :
• numéros de compte
• numéros de référence
• bons de commande
• numéros de facture
• NIV (numéro d'identification du véhicule)
• numéros du permis de conduire
Autrement dit, Data Cleanse peut analyser toutes les séquences alphanumériques pour lesquelles vous pouvez définir un modèle.
L'analyseur UDPM (correspondance des modèles définis par l'utilisateur) recherche le modèle dans chaque champ complet.
Les modèles sont définis à l'aide d'expressions régulières dans l'onglet Données de référence du générateur de packages de nettoyage des données. Faîtes un contrôle avec le propriétaire du package de nettoyage des données pour déterminer tout mappage requis pour les champs d'entrée et les champs de sortie (attributs).
16.2.5.6 Analyse des noms et numéros de rue
Data Cleanse n'identifie et n'analyse pas les composants individuels d'adresses. Pour analyser les données qui contiennent des informations d'adresse, traitez-les avec les transformations Global Address
Cleanse ou U.S. Regulatory Address Cleanse avant Data Cleanse. Si les données d'adresse sont traitées par la transformation Data Cleanse, elles sont généralement éditées dans les champs
"Supplément".
Rubriques associées
•
Fonctionnement d'Address Cleanse
388 2012-11-22
Qualité des données
389
16.2.5.7 A propos de l'analyse des données de société
Data Cleanse peut analyser des données de société.
Data Cleanse accepte ces noms de société seuls dans un champ ou avec d'autres données.
Une exception sur la manière dont Data Cleanserecombine les parties de mot contigües est faite pour les mots qui se terminent par un “S”, tels que Applebee's ou Macy's. Une chaîne d'entrée “Macy's” est divisée en trois jetons : MACY, ', s. Puisque le dernier jeton est un “S”, Data Cleanse combine d'abord les jetons et recherche le terme comprenant l'apostrophe (MACY'S). Si le terme n'est pas trouvé, Data
Cleanse recherche le terme sans l'apostrophe (MACYS). Si cette opération échoue, Data Cleanse laisse automatiquement les jetons ensemble (MACY'S) et ajoute la classification
FIRM_MISCELLANEOUS au terme. Puisque les mots terminant par “S” restent automatiquement ensemble, il n'est pas nécessaire d'ajouter au dictionnaire tous les noms de société comportant la marque du possessif.
16.2.5.8 A propos de l'analyse des données de nom et de titre
Data Cleanse peut analyser les données de nom et de titre.
Le nom d'une personne peut comprendre les parties suivantes : titre de civilité, prénoms, noms de famille, suffixes du nom, etc.
Data Cleanse peut accepter jusqu'à deux noms et titres comme composants discrets. Data Cleanse accepte également les données de nom et de titre avec d'autres données ou seules dans un champ.
La ligne du nom ou le champ multiligne peut contenir un ou deux noms par champ.
16.2.5.9 A propos du mappage un par un
Le mappage un par un est une option de la transformation Data Cleanse qui contrôle la manière dont plusieurs analyseurs éditent les données.
L'option Mappage un par un est disponible pour ces analyseurs :
• Date
• Courrier électronique
• Téléphone
2012-11-22
Qualité des données
Si l'option est définie sur Oui, la transformation Data Cleanse édite les données analysées de certains champs d'entrée discrets vers leurs champs de sortie correspondants. Les champs de sortie sont
“réservés” pour les analyses réalisées à partir de certains champs d'entrée discrets. Cette option affiche plus clairement le mappage du champ d'entrée qui contenait les données d'origine d'après les données analysées dans le champ de sortie. Par exemple, si les données d'entrée de Téléphone1 à Téléphone5
étaient vides et que le champ Téléphone6 contenait des données, à la sortie, les champs Téléphone1
à Téléphone5 sont toujours vides et Téléphone6 contient les données analysées.
Lorsque l'option Mappage un par un est définie sur Oui, tous les analyseurs qui utilisent cette option sont définis sur Oui. Par exemple, il est impossible d'activer l'option Mappage un par un uniquement pour l'analyseur de téléphone.
Si l'option Mappage un par un est définie sur Non, la transformation Data Cleanse analyse et édite les données dans l'ordre où elles sont entrées dans l'analyseur. Les données ne sont pas nécessairement envoyées vers le même champ que celui auquel elles étaient mappées à la sortie. Les données sont
éditées dans le premier champ disponible de la catégorie.
Remarque :
Les exemples de cette section illustrent les champs Date. Les mêmes exemples s'appliquent aussi aux champs Téléphone et Adresse électronique.
Exemple :
Cha mp
Date1
Données d'entrée
Données de sortie lorsque l'option est Non
<vide> 01/01/1968
Date2
Date3
Date4
Date5
Date6
01/01/1968
02/02/1968
<vide>
03/03/1968
04/04/1968
02/02/1968
03/03/1968
04/04/1968
<vide>
<vide>
Données de sortie lorsque l'option estOui
<vide>
01/01/1968
02/02/1968
<vide>
03/03/1968
04/04/1968
Champs multilignes
Les champs discrets Date, Adresse électronique et Téléphone sont analysés avant les champs multilignes afin que tous les champs non réservés puissent contenir des données des champs multilignes.
Exemple :
Cha mp
Données d'entrée
Date1 <vide>
Données de sortie lorsque l'option est Non
01/01/1968
Données de sortie lorsque l'option estOui
<vide>
390 2012-11-22
Qualité des données
Cha mp
Données d'entrée
Date2 01/01/1968
Date3 <vide>
Date4 02/02/1968
Date5 <vide>
Données de sortie lorsque l'option est Non
02/02/1968
03/03/1968
04/04/1968
<vide>
Date6 <vide>
Multi ligne1
03/03/1968
04/04/1968
<vide>
<vide>
Données de sortie lorsque l'option estOui
01/01/1968
<vide>
02/02/1968
03/03/1968 (non réservé, l'entrée multiligne peut être ajoutée ici)
04/04/1968 (non réservé, l'entrée multiligne peut être ajoutée ici)
<vide>
Champs Supplément
Quand l'option Mappage un par un est définie sur Oui et que le champ d'entrée contient plusieurs jeux de données, seul le premier jeu de données est placé dans le champ de sortie correspondant.
Tous les autres jeux de données sont placés dans le champ Supplément.
Exemple :
Champ
Données d'entrée
Date1
01/01/1968
02/02/1968
03/03/1968
04/04/1968
05/05/1968
06/06/1968
07/07/1968
08/08/1968
<vide> Date2
Date3
Date4
Date5
Date6
<vide>
<vide>
<vide>
<vide>
Données de sortie lorsque l'option est Non
Données de sortie lorsque l'option estOui
01/01/1968
02/02/1968
03/03/1968
04/04/1968
05/05/1968
06/06/1968
01/01/1968
<vide>
<vide>
<vide>
<vide>
<vide>
391 2012-11-22

Link pubblico aggiornato
Il link pubblico alla tua chat è stato aggiornato.