Passer au contenu principal

Synchroniser et gérer les sites web

Comment entraîner Fin sur les URL publiques de votre site web.

Si vous souhaitez entraîner Fin avec le contenu du site web, vous pouvez le faire en synchronisant l'URL publique de ce site.


Commencer

Allez dans Train > Content puis sélectionnez Website sync sous la section "Add content".

Saisissez maintenant l'URL publique de votre site web (top-level domain) et cliquez sur Suivant.

Cela récupérera toutes les pages de l'URL du site web que vous fournissez et lira toutes les pages des sous-domaines.

Conseils :

Examiner les pages à synchroniser

Une fois que vous avez saisi votre URL, nous vérifierons qu'elle est valide et accessible. Ensuite, vous devrez examiner les pages à synchroniser. Toutes les sous-pages liées dans chaque section sélectionnée seront synchronisées. Sélectionnez uniquement le contenu pertinent et à jour.

Paramètres avancés [optionnel]

Si vous souhaitez configurer davantage votre synchronisation de site web (comme inclure ou exclure certaines URLs), cliquez sur Paramètres avancés.

URLs supplémentaires

Les structures de sites web peuvent varier. Pour vous assurer que nous synchronisons votre contenu le plus pertinent, nous vous recommandons d'ajouter des URLs supplémentaires pour ces sous-pages spécifiques.

Par exemple, si vous saisissez https://myhelpcenter.com/help comme URL principale ci-dessus, vous pouvez également vouloir ajouter l'URL spécifique comme https://myhelpcenter.com/help/index.html

URLs à exclure

Pour exclure certaines pages dont vous ne souhaitez pas synchroniser le contenu, vous pouvez ajouter une liste de motifs d'URL (URL globs).

Qu'est-ce qu'un url glob ?

Un glob est une chaîne de caractères littéraux et/ou génériques utilisée pour faire correspondre des chemins de fichiers ou des URLs. Le globbing est l'action de localiser des fichiers sur un système de fichiers en utilisant un ou plusieurs globs. L'utilisation de globs d'URL permet également d'obtenir une gamme d'URLs qui sont majoritairement identiques, avec seulement une petite partie qui change entre les requêtes.

Par exemple, ce glob d'URL https://{store,docs}.example.com/** permet au robot d'accéder à toutes les URLs commençant par https://store.example.com/ ou https://docs.example.com/ et https://example.com/**/*\?*foo=*

Éléments de page à inclure

Pour éviter de récupérer du contenu de sections spécifiques, vous pouvez sélectionner Custom et ajouter une liste des sélecteurs CSS que vous souhaitez inclure ou exclure.

  • Utilisez ceci pour exclure les parties de la page qui ne sont pas utiles pour Fin — comme les barres de navigation ou les bannières.

  • La valeur doit être un sélecteur CSS valide accepté par la fonction document.querySelectorAll() (par exemple sidebar, #newsletter-banner).

  • Par défaut, nous excluons déjà les éléments courants tels que les en-têtes, pieds de page, modaux, scripts et images en ligne.

Sélecteur CSS cliquable

Cela permet aux éléments DOM identifiés par le sélecteur CSS d'être cliqués pendant le processus de synchronisation web.

  • Utilisez ceci pour capturer le contenu caché à l'intérieur des sections extensibles, onglets ou menus déroulants.

  • Saisissez des sélecteurs CSS valides comme [aria- expanded="false"], #expand_section, .tab.

  • Pour faire correspondre des éléments avec plusieurs classes, utilisez la chaîne CSS (sans espaces). Par exemple .button.blue.small cible les éléments qui ont les trois classes.

  • Pour faire correspondre plusieurs éléments différents, séparez les sélecteurs par des virgules. Par exemple : .tab, accordion cible à la fois les éléments tab et accordion.

Attendre le chargement du sélecteur CSS

Pour cibler un contenu qui peut avoir un délai d'apparition sur la page, vous pouvez ajouter un sélecteur CSS qui fera attendre le scraper web avant de récupérer le contenu.

  • Utilisez ceci lorsque le contenu se charge lentement ou après une interaction utilisateur (par exemple via JavaScript).

  • La valeur doit être un sélecteur CSS valide accepté par la fonction document.querySelectorAll().

  • La page ne sera traitée qu'une fois que l'élément sélectionné apparaîtra — cela remplace le comportement de temporisation par défaut.

  • Saisissez un sélecteur CSS valide, comme #load_content_id ou .article_paragraph.

Plan du site XML

Pour accéder aux pages qui pourraient ne pas être accessibles depuis les URLs initiales, vous pouvez activer le Plan du site XML pour une synchronisation web plus robuste sur les sites supportant les sitemaps.

Si cette option est activée, le scraper web recherchera des Sitemaps aux domains de l'URL source fournie et mettra en file d'attente les URLs correspondantes de la même manière que les liens trouvés sur les pages explorées. Vous pouvez également référencer un fichier sitemap.xml directement en l'ajoutant comme une autre URL de départ, par exemple https://www.example.com/sitemap.xml.

Région du proxy

Lors de la configuration d'une synchronisation de site web, une région de proxy est automatiquement suggérée en fonction du top-level domain (TLD) de votre site — par exemple, un domain .de utilisera par défaut le proxy allemand, et .fr le proxy français. Si aucun TLD correspondant n'est trouvé, un proxy américain est utilisé par défaut.

Vous pouvez changer le proxy dans les Paramètres avancés à tout moment — lors de la création d'une nouvelle synchronisation ou lors de la modification d'une existante. Lors de la modification d'une synchronisation existante, vous pouvez choisir de sauvegarder uniquement le nouveau paramètre de proxy, ou de sauvegarder et de resynchroniser immédiatement votre contenu.

Les proxies suivants sont disponibles :

  • Rotatifs : États-Unis, Australie, Allemagne, France, Royaume-Uni, Tchéquie, Hongrie

  • Statique :

    • États-Unis - 119.13.211.225, 161.123.167.215, 94.176.49.232, 185.223.56.90, 154.17.143.135

    • Europe - 178.171.116.231, 206.232.77.243, 206.232.90.11, 209.20.175.180, 45.94.247.149

    • Australie - 154.220.151.84, 173.254.193.121, 160.224.101.213, 160.224.100.176, 212.70.22.41

Audiences cibles

L'étape Target vous permet de définir une audience par défaut pour toutes les pages synchronisées et de créer des règles basées sur l'URL pour attribuer automatiquement des audiences spécifiques selon les modèles d'URL — sans besoin d'étiquetage manuel.

Décidez d'abord si le contenu de cette source est activé pour Fin AI Agent et/ou Copilot.

Ensuite, vous pouvez soit définir une audience Fin par défaut à appliquer à toutes les pages synchronisées depuis cette source (si aucune valeur par défaut n'est définie, le contenu est par défaut pour Everyone), soit créer des règles pour attribuer des audiences spécifiques selon les modèles d'URL.

Par exemple : Si l'URL contient /uk, attribuez l'audience UK. Les règles sont évaluées lors de la synchronisation, donc Fin et Copilot servent toujours le bon contenu à la bonne audience.

Chaque règle prend en charge trois comparateurs d'URL :

  • Commence par — correspond aux URL commençant par un préfixe donné.

  • Se termine par — correspond aux URL se terminant par un suffixe donné.

  • Contient — correspond aux URL contenant une sous-chaîne donnée.

Note :

  • Un aperçu en direct montre combien de pages correspondent à chaque règle, vous aidant à valider les règles avant de les enregistrer. Cela nécessite qu'un sitemap soit disponible pour votre source de synchronisation web. Sans sitemap, les règles s'appliquent toujours mais vous ne pouvez pas prévisualiser les correspondances.

  • Les règles sont nommées automatiquement à la création mais peuvent être renommées. Un maximum de 10 règles par source de synchronisation web est appliqué.

  • Les règles d'audience sont uniquement additives : elles ajoutent des audiences au contenu mais ne suppriment jamais les affectations existantes. Supprimer une règle ne revient pas sur ses affectations d'audience passées.

Revoir les paramètres de synchronisation

Enfin, vérifiez vos paramètres de synchronisation puis cliquez sur Sync website pour commencer à synchroniser le contenu de votre site avec Intercom.


Gérer les sources de site web

Une fois la synchronisation terminée, vous recevrez une notification par email et le site web apparaîtra comme source synchronisée dans Train > Content sous la section "Content sources".

Si vous cliquez sur une source de site web, vous pouvez prévisualiser et gérer les pages individuelles qui ont été synchronisées depuis l'URL publique.

Note : Les sources de site web sont en lecture seule et ne peuvent pas être modifiées dans votre espace de travail Fin, elles doivent être modifiées à la source.

Configurer les paramètres

Lorsque vous consultez une page web, vous trouverez un panneau « Détails » à droite qui contient :

  • Données : Voir le type de contenu, la langue, la date de création et la dernière mise à jour (quand elle a été synchronisée pour la dernière fois avec la source).

  • Fin : Activer/désactiver pour Fin Agent et Fin Copilot. Lorsqu'activé, le contenu devient disponible pour les clients et les coéquipiers, respectivement

    • Planification : Activer ou désactiver le contenu pour Fin et Copilot à des dates définies.

    • Audience : Assurez-vous que les clients ne reçoivent que des réponses et voient du contenu de Fin Agent qui leur est pertinent.

  • Lien : L'URL publique pour cette source de site web.

  • Rapports : Suit la fréquence à laquelle ce contenu est impliqué et utilisé pour résoudre des conversations par Fin Agent.

  • Étiquette : Ajoutez une étiquette pour regrouper les pages web et garder le contenu organisé.

Rendez-le disponible pour Fin ou Copilot

Pour rendre une source de site web disponible pour Fin Agent ou Fin Copilot, allez dans Train > Content et cliquez sur la source de site web sous la section "Content sources", puis ouvrez la page web pertinente que vous avez synchronisée.

Dans le panneau « Détails » , faites défiler jusqu'à « Fin » et activez :

  • Fin Agent - Ce paramètre rendra la page web disponible pour Fin AI lorsqu'elle répond aux clients (il respectera toutes les règles d'audience).

  • Fin Copilot - Ce paramètre rendra la page web disponible pour Fin Copilot lorsqu'il répond aux coéquipiers.

Planifier la disponibilité du site web

Vous pouvez planifier quand les pages de site web synchronisées s'activent ou se désactivent pour Fin et Copilot, à une date, heure et fuseau horaire futurs. Définissez une date de début uniquement, ou définissez une date de début et de fin pour créer une fenêtre de disponibilité limitée dans le temps. La planification s'applique aux pages individuelles ou en masse.

Planifier une seule page

  1. Ouvrez la page. Dans le panneau Détails à droite, trouvez la section Planification dans le menu déroulant Fin.

  2. Cliquez sur Planifier la disponibilité.

  3. Dans la fenêtre modale : sélectionnez le produit IA (Fin pour Service ou Fin Copilot), définissez la disponibilité (Activer ou Désactiver), et choisissez une date, une heure et un fuseau horaire.

  4. Activez éventuellement Définir la date de fin pour ajouter une date et une heure de fin — l'action s'inverse automatiquement à ce moment-là.

  5. Cliquez sur Planifier pour confirmer.

Planification en masse des pages

  1. Sélectionnez plusieurs pages dans la liste de contenu.

  2. Allez dans le menu déroulant Plus d'actions et sélectionnez Planifier la disponibilité.

  3. La même fenêtre de planification s'applique à tous les éléments sélectionnés.

Comment fonctionne la planification

  • Date de début uniquement : L'action d'activation/désactivation se déclenche à l'heure prévue et reste en vigueur jusqu'à ce que vous la modifiiez manuellement.

  • Date de début + date de fin : Le contenu s'active (ou se désactive) à l'heure de début, puis revient automatiquement à l'heure de fin.

  • Les modifications manuelles n'annulent pas une planification en attente : Si vous modifiez manuellement la disponibilité après avoir défini une planification, la transition planifiée se déclenchera toujours à l'heure prévue et remplacera votre modification manuelle.

  • Un seul planning en attente par élément et par agent : Définir un nouveau planning remplace le précédent — pas de doublons.

  • Contenu supprimé : Si une page est supprimée avant que son planning ne s'exécute, le planning ne s'appliquera tout simplement pas et aucune erreur ne sera affichée.

Rendez-le disponible pour un public spécifique

Vous pouvez attribuer des audiences au contenu synchronisé automatiquement en utilisant des règles basées sur l'URL lors de la création de la synchronisation web, ou manuellement page par page. D'abord, vous devez créer et définir l'audience que vous souhaitez cibler.

Ensuite, allez dans Train > Content et cliquez sur la source du site web dans la section "Content sources", puis ouvrez la page web pertinente que vous avez synchronisée.

Dans le panneau « Détails » , faites défiler jusqu'à « Fin » et utilisez le menu déroulant de l'audience pour sélectionner l'une de vos audiences pré-définies.

Note :

  • L'audience par défaut pour les URLs publiques est « Tout le monde ».

  • Fin Agent respectera également toute audience que vous appliquez à une URL publique et n'utilisera cet article pour répondre aux questions des clients que si elles correspondent aux règles d'audience.

Ajouter ou modifier les règles d'audience sur les synchronisations existantes

Vous n'avez pas besoin de recréer une synchronisation pour ajouter un ciblage d'audience. Allez dans Train > Content, sélectionnez la source, cliquez sur le menu déroulant des paramètres en haut à droite, et sélectionnez Ouvrir les paramètres. Naviguez jusqu'à l'étape Ciblage pour ajouter ou modifier les règles basées sur l'URL.

Note : Lorsque des règles d'audience sont ajoutées à une synchronisation web existante, elles s'appliquent rétroactivement à tout le contenu déjà ingéré depuis cette source — pas seulement au nouveau contenu à venir.

Resynchroniser ou supprimer un site web en tant que source

Si vous souhaitez resynchroniser ou supprimer une URL publique en tant que source, allez dans Train > Content, et cliquez sur la source du site web dans la section "Content sources", puis ouvrez le menu déroulant Paramètres en haut à droite.

Ici, vous pouvez choisir de Resynchroniser ou Supprimer cette source.

Astuce : Les mises à jour effectuées sur votre site source n'apparaîtront pas immédiatement dans Intercom. Les resynchronisations du site web se font automatiquement chaque semaine, mais vous pouvez déclencher une resynchronisation manuelle à tout moment pour afficher le contenu le plus récent plus rapidement.

Voir l'historique des synchronisations du site web

Vous pouvez consulter la liste des synchronisations passées pour voir quand elles ont été effectuées, quelles pages ont été trouvées, et les pages ayant échoué. Allez dans Train > Content, et cliquez sur la source du site web dans la section "Content sources", puis sélectionnez Voir l'historique des synchronisations.


Chaque ligne du tableau représente une exécution passée ou active, et vous pouvez filtrer les exécutions par statut (démarré, réussi, échoué).

Cela inclut les informations suivantes :

  • Date de synchronisation

  • Statut

  • Pages synchronisées

  • Pages exclues

  • Pages échouées

  • Durée

  • Synchronisation démarrée par

Si une synchronisation a échoué, vous pouvez survoler le statut pour voir une explication détaillée du pourquoi.


Dépannage de la synchronisation du site web

Problèmes courants

Lors de l'importation de contenu de site web pour activer Fin, vous devez saisir l'URL publique. Cela recherchera toutes les pages imbriquées sous cette URL et les synchronisera pour que Fin AI Agent puisse les utiliser.

Si l'importateur n'a pas retourné le nombre de pages attendu, plusieurs raisons peuvent expliquer cela...

L'URL fournie n'est pas le domain de premier niveau

La synchronisation du site web fonctionne en allant à l'URL que vous fournissez puis en recherchant toutes les pages imbriquées sous cette URL. Ces pages doivent avoir le même modèle d'URL que l'URL que vous fournissez.

Par exemple, si le domain de premier niveau est https://myhelpcenter.com/home, alors toutes les pages que vous souhaitez importer doivent inclure le préfixe /home dans l'URL, par ex. https://myhelpcenter.com/home/article. Si ce n'est pas le cas, retirez le préfixe et utilisez la racine d'URL la plus basique, par ex. https://myhelpcenter.com, puis essayez à nouveau l'importation.

L'URL est privée

Si le contenu que vous souhaitez utiliser est derrière une connexion, Fin ne pourra pas y accéder ni l'importer.

Limites de pages

Vous pouvez synchroniser jusqu'à 100 domain différents de premier niveau et Fin synchronisera un maximum de 30 000 pages par source. La synchronisation peut parfois échouer s'il y a une très grande quantité de contenu sur une seule page (vous serez averti si une synchronisation échoue).

Sites web restreints à des IP régionales spécifiques

La synchronisation du site web de Fin (utilisée pour ajouter des URLs publiques pour Fin AI Agent et Copilot) n'utilise pas de chaîne d'agent utilisateur dédiée et personnalisée pour le moment.

Si votre site a une protection anti-crawling stricte, vous pouvez utiliser un proxy statique pour autoriser une liste fixe d'adresses IP et garantir que votre contenu soit ingéré. Sélectionnez un proxy statique dans les Paramètres avancés lors de la création ou de la modification de votre synchronisation de site web.

  • Par adresse IP : Si votre site nécessite une liste d'autorisation, sélectionnez un proxy statique dans les Paramètres avancés — cela vous donne un ensemble fixe d'IP à ajouter à votre liste d'autorisation.

  • Ces requêtes sont utilisées uniquement pour la synchronisation du site web. Elles n'affectent pas le trafic de votre Messenger ni le suivi des utilisateurs finaux.

Erreurs de synchronisation du site web

Lorsque vous synchronisez le contenu du site web, vous pouvez voir différents statuts qui indiquent ce qui s'est passé pendant le processus. Pour voir le statut de synchronisation de votre site web, allez dans Train > Content et sélectionnez la source du site web, puis utilisez le menu déroulant Statut pour filtrer par :

  • Synchronisation en cours

  • En direct

  • Échoué

  • Exclu

Voici ce que chacun signifie et ce que vous pouvez faire ensuite :

Synchronisation

La synchronisation de la page est toujours en cours. Une synchronisation initiale peut prendre de quelques minutes à plus d'une heure selon la quantité de contenu que vous avez.

En direct

La page a été synchronisée avec succès et peut être activée pour Fin et Copilot.

Note : Une synchronisation réussie ne signifie pas toujours que nous avons pu extraire tout le contenu de la page. Si vous souhaitez confirmer la couverture complète, nous vous recommandons de prévisualiser Fin avec les réponses que vous attendez de cette page.

Exclu

Ces pages ne sont pas synchronisées intentionnellement car vous les avez exclues dans les Paramètres avancés de synchronisation. Elles ne peuvent pas être retentées ou incluses sauf indication contraire.

Échec

Ces erreurs signifient que la synchronisation n’a pas été complétée et peuvent nécessiter des modifications de votre côté avant de réessayer :

1. Erreur inconnue

  • Message : « Cette page n’a pas pu être accessible. Elle peut être lente ou bloquée. Essayez de synchroniser à nouveau, ou contactez le help center si cela échoue. »

  • Ce que cela signifie : Quelque chose nous a empêchés d’accéder à la page, mais la cause n’est pas claire.

2. Session bloquée / Limite de fréquence

  • Message : « Le site web nous empêche d’accéder à son contenu. Vérifiez s’il est bloqué par un paramètre anti-crawler ou un pare-feu. Vérifiez la configuration de votre site et essayez de synchroniser à nouveau. Si le problème persiste, contactez le help center. »

  • Ce que cela signifie : Votre site bloque ou limite activement notre crawler.

3. Erreurs réseau, délai d’attente ou similaires

  • Message : « Cette page n’a pas pu être accessible. Elle peut être lente à charger ou bloquée par des paramètres anti-crawler ou un pare-feu. Vérifiez la configuration de votre site et essayez de synchroniser à nouveau. Si le problème persiste, contactez le help center.

  • Ce que cela signifie : La page ne s’est pas chargée à temps ou n’a pas pu être atteinte en raison de problèmes réseau ou de blocage.

4. Doublon

  • Message : « Cette page a le même contenu qu’une autre déjà synchronisée. Une seule version sera incluse. »

  • Ce que cela signifie : Nous avons détecté un contenu identique ailleurs, donc une seule copie est conservée.

5. Filtrage par mot-clé

  • Message : « Les pages avec des mots-clés comme category, collection ou tag dans l’URL sont exclues par défaut, car elles ne contiennent généralement pas de contenu unique. Si cette page doit être incluse, contactez le help center. »

  • Ce que cela signifie : Ces URL représentent souvent des listes, pas des pages de contenu autonomes.

6. Code d’état 400

  • Message : « Le contenu de la page est introuvable. Vérifiez que l’URL est valide et que la page se charge sans problème.

  • Ce que cela signifie : L’URL peut être cassée ou renvoyer une erreur sur votre site.

7. URL bloquée

  • Message : « Ce domain de site web est bloqué pour la synchronisation. Si vous en avez besoin, contactez le help center. »

  • Ce que cela signifie : Le domain est intentionnellement exclu de la synchronisation.


​Vous pouvez retenter une synchronisation de page échouée en survolant la page, en sélectionnant le menu à trois points puis en choisissant Resync.

Avez-vous trouvé la réponse à votre question ?