Identification des doublons sur la base des attributs de produits

0

Bonjour,

Je suis sur une problématique un peu complexe mais je suis sûr que je peux la solutionner en utilisant excel, sauf que je n'arrive pas à trouver une méthode pour y parvenir.

Je vous explique : j'ai un magasin plein de produits à gérer (on va considérer que c'est des stocks) et je dois identifier les produits en double

Cette identification se basera sur des attributs. En effet, chaque produit a une vingtaine d'attributs : cela peut être une valeur numérique (longueur, largeur, poids, ...), alphabétique (marque, constructeur, ...) ou alphanumérique (code fournisseur, code de rangement, ...)

J'ai donné sur le fichier excel une illustration avec 200 lignes pour les produits et 20 colonnes pour les attributs. En vrai, j'ai plus de 10 000 produits

Mon objectif c'est d'identifier les produits en double sur la base des valeurs des attributs, chaque attribut aura une pondération.

Les pondération vont de 1 (pour les attributs ayant un faible potentiel d'identification de doublons) à 5 pour des articles ayant un fort potentiel d'identification de doublons

Par exemple, l'attribut 1(longueur) aura une pondération de 1 parce que 2 produits de même longueur ne sont pas forcément un doublon. L'attribut 3(code fournisseur) aura une pondération de 4 parce que 2 produits ayant le même code fournisseur , il y a de grandes chances que ce soit des doublons.

Avez-vous en tête une méthode excel qui peut m'aider à trouver les doublons de produits ?

Je pense notamment à créer une matrice carré avec 200 lignes et 200 colonnes (le nombre de produits) (onglet méthode identification doublon sur le fichier excel) et où sur chaque cellule je mettrai la note finale de comparaison entre le produit i et le produit j, les notes supérieurs à certain seuil que je choisirai seront les doublons, sauf que je n'arrive pas à mettre en place les formules qui m'aideront à le faire

Merci beaucoup d'avance.

h4p2.png


    ExcelBeginner Posté le 12 décembre 2022, 17:29
    par ExcelBeginner
    Répondre
    0

    Bonsoir ExcelBeginner,

    ton post contient juste une image statique (qu'on ne peut même pas télécharger),
    pas un lien sur un fichier Excel ; pour joindre ton fichier, va sur le site de partage
    de fichiers cjoint.com (c'est gratuit, et c'est très bien expliqué comment faire) ;
    tu devras coller dans ton prochain post ici le lien de téléchargement que tu
    auras copié sur cjoint.com (avec le clic droit).

    ça servira pour un autre contributeur, car cet exo n'est pas évident pour moi ;
    je te donne juste ces quelques infos :

    1) le plus simple est s'il y a un code produit, et que celui-ci est unique pour chacun ;
    ainsi, comme chaque produit aurait son code produit spécifique (différent d'un
    produit à un autre)
    , il serait très facile de voir que les lignes de produit ayant
    un code produit identique sont forcément des doublons.

    2) il va de soi qu'un code produit unique serait pour un produit du constructeur X,
    du fournisseur Z (et donc du code fournisseur Y), de la marque A, du modèle B,
    avec la désignation C, longueur D, largeur E, profondeur F, poids G, couleur H,
    et toutes autres caractéristiques ; pour les lettres en gras utilisées, voir ordre de
    la liste du point 4)
    .

    3) bien sûr, tous les fournisseurs sont différenciés par un code fournisseur unique.

    4) sans le code produit, il faudrait identifier les différents produits selon les mêmes
    éléments qu'au point 2), hors code produit et de préférence dans cet ordre :

    a) marque A
    b) modèle B
    c) désignation C
    d) longueur D
    e) largeur E
    f) profondeur F
    g) poids G
    h) couleur H
    etc...
    w) code constructeur W
    x) constructeur X
    y) code fournisseur Y
    z) fournisseur Z

    cet ordre pourra remplacer la pondération, car par exemple 2 imprimantes différentes
    sont éventuellement d'un constructeur différent, peut-être aussi d'un fournisseur différent,
    peut-être d'une marque différente, d'un modèle différent, désignation différente, toutes
    autres caractéristiques différentes ; exemple :

    j'ai une imprimante Samsung Xpress M2070 avec toutes ses caractéristiques bien
    spécifiques ; donc les attributs b) à h) puis jusqu'à v) sont bien spécifiques à cette
    imprimante bien précise ; ensuite : pour a) la marque est évidemment Samsung
    (et il pourrait y avoir d'autres modèles d'imprimantes de la même marque) ; pour x)
    le constructeur est Samsung (même s'il pourrait y avoir éventuellement un ou
    plusieurs sous-traitants)
    ; le fournisseur peut être Samsung si on commande cette
    imprimante sur le site de Samsung, mais le fournisseur sera par exemple Darty
    ou la FNAC si on a acheté l'imprimante dans un de ces magasins.

    pour info, la société Samsung a arrêté la commercialisation de ses imprimantes,
    et elle a confié à HP (Hewlett-Packard) la maintenance matérielle et logicielle ;
    par exemple, c'est sur le site de HP qu'il faut télécharger un nouveau driver pour
    une imprimante Samsung (driver = pilote de périphérique).

    - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

    à propos de l'ordre des attributs, je nuance :

    * regarder d'abord le modèle B ; si c'est XPress M2070, c'est forcément une
    imprimante Samsung ; et donc : la marque A est Samsung et le constructeur
    X est Samsung ; mais peut-être que HP a acheté la licence de fabrication des
    imprimantes Samsung et fabrique des imprimantes Samsung en y apposant
    la marque Samsung, pas la marque HP ?

    * un même produit peut être livré par plusieurs fournisseurs différents ;
    exemple : les pâtes coquillettes B de la marque A sont vendues par
    les supermarchés (fournisseurs) Z1 et Z2.

    rhodo

    rhodo Posté le 12 décembre 2022, 19:04
    par rhodo
    0

    @ExcelBeginner

    voici un complément à mon post ci-dessus ; par rapport à l'exemple de ton image :

    * pour la 1ère colonne, quand tu mets Produit 1, Produit 2, Produit 3, etc..., ce n'est
    pas gênant pour faire ton exo de ne pas connaître le vrai nom des produits. (mais
    ça serait quand même mieux de mettre les vrais noms, car c'est plus significatif)

    * par contre, pour la 1ère ligne, quand tu mets Attribut 1, Attribut 2, Attribut 3, etc...,
    là c'est plutôt bien embêtant ! comment veux-tu qu'on puisse faire ton exo avec
    par exemple Attribut X et un nombre ? comme on ne sait pas au juste de quelle
    nature est l'attribut réel, impossible de faire une pondération ; et de toute façon,
    c'est toi le mieux placé pour déterminer la pondération adéquate ! ainsi, pour :

    Attribut 1 : 13 ; Attribut 4 : 0,5 ; Attribut 6 : 35 ; Attribut 9 : 13 ; Attribut 15 : 32 ;
    Attribut 19 : 19,5

    Attribut X de nature inconnue ➯ impossible de savoir de quoi il s'agit au juste
    ➯ impossible de mettre une pondération pour les nombres en gras !

    Attribut 12 : Samsung ; donc l'Attribut 12 semble être pour la marque du produit ;
    peut-être une imprimante Samsung ? (mais Samsung a fait d'autres produits)

    Attribut 2 : Plastique ; donc l'Attribut 2 serait pour la matière du produit. (mais
    s'il s'agit d'une imprimante, il y a d'autres matières que le plastique ; disons
    que Attribut 2 serait la matière principale du produit)

    Attribut 3 : xoh-34 ; ça serait le modèle d'une des imprimantes Samsung.

    Attribut 5 : Oui ; oui quoi ? ^^ ; Attribut 17 : Non ; non quoi ? ^^

    suggestion : si l'Attribut 5 signifie : Oui, "l'imprimante Samsung en plastique
    modèle xoh-34 vaut son poids en or", alors ça y'est : t'es riche !!!  ;)  donc
    il faut pondérer l'Attribut 5 avec la note maximale !  ;)

    rhodo

    rhodo Posté le 12 décembre 2022, 23:03
    par rhodo

    Si vous n'êtes pas inscrit sur le site, vous pouvez poster librement (en tant qu'invité).
    Pour cela, indiquez un pseudonyme (nom d'utilisateur) et une adresse email :