Si vous souhaitez entraîner Fin avec le contenu du site web, vous pouvez le faire en synchronisant l'URL publique de ce site.

Commencer

Allez dans Train > Content puis sélectionnez Website sync sous la section "Add content".

Entrez maintenant l'URL publique de votre site web (top-level domain) et cliquez sur Next.

Cela récupérera toutes les pages de l'URL du site web que vous fournissez et lira toutes les pages du sous domain.

Conseils :

Fournissez le lien vers la page d'accueil de votre help center externe pour de meilleurs résultats.
Utilisez les top-level domains (par exemple https://myhelpcenter.com plutôt que https://myhelpcenter.com/articles).

Examiner les pages à synchroniser

Une fois que vous avez saisi votre URL, nous vérifierons qu'elle est valide et accessible. Ensuite, vous devrez examiner les pages à synchroniser. Toutes les sous-pages liées dans chaque section sélectionnée seront synchronisées. Sélectionnez uniquement le contenu pertinent et à jour.

Paramètres avancés `[optionnel]`

Si vous souhaitez configurer davantage votre synchronisation de site web (comme inclure ou exclure certaines URLs), cliquez sur Paramètres avancés.

URLs supplémentaires

Les structures de sites web peuvent varier. Pour vous assurer que nous synchronisons votre contenu le plus pertinent, nous vous recommandons d'ajouter des URLs supplémentaires pour ces sous-pages spécifiques.

Par exemple, si vous saisissez https://myhelpcenter.com/help comme URL principale ci-dessus, vous pouvez également ajouter l'URL spécifique comme https://myhelpcenter.com/help/index.html

URLs à exclure

Pour exclure certaines pages dont vous ne souhaitez pas synchroniser le contenu, vous pouvez ajouter une liste de motifs d'URL (URL globs).

Qu'est-ce qu'un url glob ?

Un glob est une chaîne de caractères littéraux et/ou génériques utilisée pour faire correspondre des chemins de fichiers ou des URLs. Le globbing est l'action de localiser des fichiers sur un système de fichiers en utilisant un ou plusieurs globs. L'utilisation de URL globs aide également à obtenir une gamme d'URLs qui sont majoritairement identiques, avec seulement une petite partie qui change entre les requêtes.

Par exemple, ce glob d'URL https://{store,docs}.example.com/** permet au crawler d'accéder à toutes les URLs commençant par https://store.example.com/ ou https://docs.example.com/ et https://example.com/**/*\?*foo=*

Éléments de page à inclure

Pour éviter de scraper le contenu de sections spécifiques, vous pouvez sélectionner Custom et ajouter une liste des sélecteurs CSS que vous souhaitez inclure ou exclure.

Utilisez ceci pour exclure les parties de la page qui ne sont pas utiles pour Fin — comme les barres de navigation ou les bannières.
La valeur doit être un sélecteur CSS valide accepté par la fonction document.querySelectorAll() (par exemple sidebar, #newsletter-banner).
Par défaut, nous excluons déjà les éléments communs tels que les en-têtes, pieds de page, modaux, scripts et images en ligne.

Sélecteur CSS cliquable

Cela permet aux éléments DOM identifiés par le sélecteur CSS d'être cliqués pendant le processus de synchronisation web.

Utilisez ceci pour capturer le contenu caché à l'intérieur des sections extensibles, onglets ou menus déroulants.
Entrez des sélecteurs CSS valides comme [aria- expanded="false"], #expand_section, .tab.
Pour faire correspondre des éléments avec plusieurs classes, utilisez la chaîne CSS (sans espaces). Par exemple .button.blue.small cible les éléments qui ont les trois classes.
Pour faire correspondre plusieurs éléments différents, séparez les sélecteurs par des virgules. Par exemple : .tab, accordion cible à la fois les éléments tab et accordion.

Attendre le chargement du sélecteur CSS

Pour cibler un contenu qui peut avoir un délai d'apparition sur la page, vous pouvez ajouter un sélecteur CSS qui fera attendre le scraper web avant de scraper le contenu.

Utilisez ceci lorsque le contenu se charge lentement ou après une interaction utilisateur (par exemple via JavaScript).
La valeur doit être un sélecteur CSS valide accepté par la fonction document.querySelectorAll().
La page ne sera traitée qu'une fois que l'élément sélectionné apparaîtra — cela remplace le comportement de temporisation par défaut.
Entrez un sélecteur CSS valide, comme #load_content_id ou .article_paragraph.

Plan du site XML

Pour accéder aux pages qui pourraient ne pas être accessibles depuis les URLs initiales, vous pouvez activer le Plan du site XML pour une synchronisation web plus robuste sur les sites supportant les sitemaps.

Si cette option est activée, le scraper web recherchera des Sitemaps aux domaines de l'URL source fournie et mettra en file d'attente les URLs correspondantes de la même manière que les liens trouvés sur les pages explorées. Vous pouvez également référencer un fichier sitemap.xml directement en l'ajoutant comme une autre URL de départ, par exemple https://www.example.com/sitemap.xml.

Ignorer les URLs canoniques

Lorsqu'elle est activée, le scraper web ignore les balises de lien canonical (rel="canonical") et traite chaque URL comme une page distincte. Cette option est désactivée par défaut.

Cela est utile lorsqu'un site pointe plusieurs pages vers une URL canonique et que du contenu est manqué en conséquence.

Région du proxy

Lors de la configuration d'une synchronisation de site web, une région de proxy est automatiquement suggérée en fonction du top-level domain (TLD) de votre site — par exemple, un domain .de utilisera par défaut le proxy allemand, et .fr le proxy français. Si aucun TLD correspondant n'est trouvé, un proxy américain est utilisé par défaut.

Vous pouvez changer le proxy dans les Paramètres avancés à tout moment — lors de la création d'une nouvelle synchronisation ou lors de la modification d'une existante. Lors de la modification d'une synchronisation existante, vous pouvez choisir de sauvegarder uniquement le nouveau paramètre de proxy, ou de sauvegarder et de resynchroniser immédiatement votre contenu.

Les proxies suivants sont disponibles :

Rotatif : États-Unis, Australie, Allemagne, France, Royaume-Uni, Tchéquie, Hongrie
Statique :
- United States - 119.13.211.225, 161.123.167.215, 94.176.49.232, 185.223.56.90, 154.17.143.135
- Europe - 178.171.116.231, 206.232.77.243, 206.232.90.11, 209.20.175.180, 45.94.247.149
- Australia - 154.220.151.84, 173.254.193.121, 160.224.101.213, 160.224.100.176, 212.70.22.41

Audiences cibles

L’étape Target vous permet de définir une audience par défaut pour toutes les pages synchronisées et de créer des règles basées sur l’URL pour attribuer automatiquement des audiences spécifiques selon les modèles d’URL — sans besoin d’étiquetage manuel.

Décidez d’abord si le contenu de cette source est activé pour Fin AI Agent et/ou Copilot.

Ensuite, vous pouvez soit définir une audience Fin par défaut à appliquer à toutes les pages synchronisées depuis cette source (si aucune valeur par défaut n’est définie, le contenu est par défaut pour Everyone), soit créer des règles pour attribuer des audiences spécifiques selon les modèles d’URL.

Par exemple : Si l’URL contient /uk, attribuez l’audience UK. Les règles sont évaluées lors de la synchronisation, donc Fin et Copilot servent toujours le bon contenu à la bonne audience.

Chaque règle supporte trois comparateurs d’URL :

Commence par — correspond aux URL commençant par un préfixe donné.
Se termine par — correspond aux URL se terminant par un suffixe donné.
Contient — correspond aux URL contenant une sous-chaîne donnée.

Note :

Un aperçu en direct montre combien de pages correspondent à chaque règle, vous aidant à valider les règles avant de les enregistrer. Cela nécessite un sitemap disponible pour votre source de synchronisation web. Sans sitemap, les règles s’appliquent toujours mais vous ne pouvez pas prévisualiser les correspondances.
Les règles sont nommées automatiquement à la création mais peuvent être renommées. Un maximum de 10 règles par source de synchronisation web est appliqué.
Les règles d’audience sont uniquement additives : elles ajoutent des audiences au contenu mais ne suppriment jamais les affectations existantes. Supprimer une règle ne supprime pas ses affectations d’audience passées.

Revoir les paramètres de synchronisation

Enfin, vérifiez vos paramètres de synchronisation puis cliquez sur Sync website pour commencer à synchroniser le contenu de votre site avec Intercom.

Gérer les sources de site web

Une fois la synchronisation terminée, vous recevrez une notification par email et le site apparaîtra comme source synchronisée dans Train > Content sous la section "Content sources".

Si vous cliquez sur une source de site web, vous pouvez prévisualiser et gérer les pages individuelles synchronisées depuis l’URL publique.

Note : Les sources de site web sont en lecture seule et ne peuvent pas être modifiées dans votre espace de travail Fin, elles doivent être modifiées à la source.

Configurer les paramètres

Lorsque vous consultez une page web, vous trouverez un panneau « Détails » à droite qui contient :

Données : Voir le type de contenu, la langue, la date de création et la dernière mise à jour (quand elle a été synchronisée pour la dernière fois avec la source).
Fin : Activer/désactiver pour Fin Agent et Fin Copilot. Lorsqu’activé, le contenu devient disponible respectivement pour les clients et les coéquipiers.
- Planification : Activer ou désactiver le contenu pour Fin et Copilot à des dates définies.
- Audience : Assurez-vous que les clients ne reçoivent que des réponses et voient du contenu de Fin Agent pertinent pour eux.
Lien : L’URL publique pour cette source de site web.
Rapports : Suit la fréquence d’utilisation de ce contenu pour résoudre les conversations par Fin Agent.
Étiquette : Ajoutez une étiquette pour regrouper les pages web et garder le contenu organisé.

Rendez-le disponible pour Fin ou Copilot

Pour rendre une source de site web disponible pour Fin Agent ou Fin Copilot, allez dans Train > Content et cliquez sur la source de site web sous la section "Content sources", puis ouvrez la page web pertinente que vous avez synchronisée.

Depuis le panneau « Détails », faites défiler jusqu’à « Fin » et activez :

Fin Agent - Ce paramètre rendra la page web disponible pour Fin AI lorsqu’elle répondra aux clients (il respectera toutes les règles d’audience).
Fin Copilot - Ce paramètre rendra la page web disponible pour Fin Copilot lorsqu’il répondra aux coéquipiers.

Planifier la disponibilité du site web

Vous pouvez planifier quand les pages synchronisées du site web s’activent ou se désactivent pour Fin et Copilot, à une date, heure et fuseau horaire futurs. Définissez une date de début uniquement, ou une date de début et de fin pour créer une fenêtre de disponibilité limitée dans le temps. La planification s’applique aux pages individuelles ou en masse.

Planifier une seule page

Ouvrez la page. Dans le panneau Détails à droite, trouvez la section Planification dans le menu déroulant Fin.
Cliquez sur Planifier la disponibilité.
Dans la fenêtre modale : sélectionnez le produit IA (Fin for Service ou Fin Copilot), définissez la disponibilité (Activer ou Désactiver), et choisissez une date, une heure et un fuseau horaire.
Activez éventuellement Définir la date de fin pour ajouter une date et heure de fin — l’action s’inverse automatiquement à ce moment.
Cliquez sur Planifier pour confirmer.

Planification en masse des pages

Sélectionnez plusieurs pages dans la liste de contenu.
Allez dans le menu déroulant Plus d’actions et sélectionnez Planifier la disponibilité.
La même fenêtre de planification s’applique à tous les éléments sélectionnés.

Comment fonctionne la planification

Date de début uniquement : L'action d'activation/désactivation se déclenche à l'heure prévue et reste en vigueur jusqu'à ce que vous la modifiiez manuellement.
Date de début + date de fin : Le contenu s'active (ou se désactive) à l'heure de début, puis revient automatiquement à l'heure de fin.
Les modifications manuelles n'annulent pas un planning en attente : Si vous modifiez manuellement la disponibilité après avoir défini un planning, la transition programmée se déclenchera toujours à l'heure prévue et remplacera votre modification manuelle.
Un planning en attente par élément et par agent : Définir un nouveau planning remplace le précédent — pas de doublons.
Contenu supprimé : Si une page est supprimée avant que son planning ne se déclenche, le planning ne s'appliquera tout simplement pas et aucune erreur ne sera affichée.

Rendez-le disponible à un public spécifique

Vous pouvez attribuer des audiences au contenu synchronisé automatiquement en utilisant des règles basées sur l'URL lors de la création de la synchronisation web, ou manuellement page par page. D'abord, vous devez créer et définir l'audience que vous souhaitez cibler.

Ensuite, allez dans Train > Content et cliquez sur la source du site web dans la section « Content sources », puis ouvrez la page web pertinente que vous avez synchronisée.

Dans le panneau « Détails » , faites défiler jusqu'à « Fin » et utilisez le menu déroulant d'audience pour sélectionner l'une de vos audiences pré-définies.

Note :

L'audience par défaut pour les URL publiques est « Everyone ».
Fin Agent respectera également toute audience que vous appliquez à une URL publique et n'utilisera cet article pour répondre aux questions des clients que si elles correspondent aux règles d'audience.

Ajouter ou modifier les règles d'audience sur les synchronisations existantes

Vous n'avez pas besoin de recréer une synchronisation pour ajouter un ciblage d'audience. Allez dans Train > Content, sélectionnez la source, cliquez sur le menu déroulant des paramètres en haut à droite, puis sélectionnez Ouvrir les paramètres. Naviguez à l'étape Cible pour ajouter ou modifier les règles basées sur l'URL.

Note : Lorsque des règles d'audience sont ajoutées à une synchronisation web existante, elles s'appliquent rétroactivement à tout le contenu déjà ingéré depuis cette source — pas seulement au nouveau contenu à venir.

Resynchroniser ou supprimer un site web en tant que source

Si vous souhaitez resynchroniser ou supprimer une URL publique en tant que source, allez dans Train > Content, et cliquez sur la source du site web dans la section « Content sources », puis ouvrez le menu déroulant Paramètres en haut à droite.

Ici, vous pouvez choisir de Resynchroniser ou Supprimer cette source.

Astuce : Les mises à jour effectuées sur votre site source n'apparaîtront pas immédiatement dans Intercom. Les resynchronisations du site web se font automatiquement chaque semaine, mais vous pouvez déclencher une resynchronisation manuelle à tout moment pour afficher le contenu le plus récent plus rapidement.

Voir l'historique des synchronisations du site web

Vous pouvez consulter la liste des synchronisations passées pour voir quand elles ont été effectuées, quelles pages ont été trouvées, et les pages ayant échoué. Allez dans Train > Content, et cliquez sur la source du site web dans la section « Content sources », puis sélectionnez Voir l'historique des synchronisations.

Chaque ligne du tableau représente une exécution passée ou active, et vous pouvez filtrer les exécutions par statut (démarré, réussi, échoué).

Cela inclut les informations suivantes :

Date de synchronisation
Statut
Pages synchronisées
Pages exclues
Pages échouées
Durée
Synchronisation démarrée par

Si une synchronisation a échoué, vous pouvez survoler le statut pour voir une explication détaillée du pourquoi.

Dépannage de la synchronisation du site web

Problèmes courants

Lors de l'importation du contenu du site web pour activer Fin, vous devez saisir l'URL publique. Cela recherchera toutes les pages imbriquées sous cette URL et les synchronisera pour que Fin AI Agent puisse les utiliser.

Si l'importateur n'a pas retourné le nombre de pages attendu, il y a plusieurs raisons...

L'URL fournie n'est pas le domain de premier niveau

La synchronisation du site web fonctionne en allant à l'URL que vous fournissez puis en recherchant toutes les pages imbriquées sous cette URL. Ces pages doivent avoir le même modèle d'URL que l'URL que vous fournissez.

Par exemple, si le domain de premier niveau est https://myhelpcenter.com/home, alors toutes les pages que vous souhaitez importer doivent inclure le préfixe /home dans l'URL, par ex. https://myhelpcenter.com/home/article. Si ce n'est pas le cas, retirez le préfixe et utilisez la racine d'URL la plus basique, par ex. https://myhelpcenter.com, puis essayez à nouveau l'importation.

L'URL est privée

Si le contenu que vous souhaitez utiliser est derrière une connexion, Fin ne pourra pas y accéder ni l'importer.

Limites de pages

Vous pouvez synchroniser jusqu'à 100 domain différents et Fin synchronisera un maximum de 30 000 pages par source. La synchronisation peut parfois échouer s'il y a une très grande quantité de contenu sur une seule page (vous serez averti si une synchronisation échoue).

Sites web restreints à des IP régionales spécifiques

La synchronisation du site web de Fin (utilisée pour ajouter des URL publiques pour Fin AI Agent et Copilot) n'utilise pas de chaîne user-agent dédiée et personnalisée pour le moment.

Si votre site a une protection anti-crawling stricte, vous pouvez utiliser un proxy statique pour autoriser une liste fixe d'adresses IP et garantir que votre contenu soit ingéré. Sélectionnez un proxy statique dans les Paramètres avancés lors de la création ou de la modification de votre synchronisation de site web.

Par adresse IP : Si votre site nécessite une liste d'autorisation, sélectionnez un proxy statique dans les Paramètres avancés — cela vous donne un ensemble fixe d'IP à ajouter à votre liste d'autorisation.
Ces requêtes sont utilisées uniquement pour la synchronisation du site web. Elles n'affectent pas le trafic de votre Messenger ni le suivi des utilisateurs finaux.

Les pages de sites non anglophones ou internationaux ne se synchronisent pas

Si votre sitemap inclut des URL avec des caractères non ASCII (comme des lettres accentuées, ou des scripts comme le chinois ou l'arabe), certaines de ces pages peuvent ne pas se synchroniser comme prévu. La découverte du sitemap prend désormais en charge ces URL, mais elles peuvent encore rencontrer des problèmes dans d'autres parties du processus de synchronisation. Essayez de resynchroniser manuellement pour résoudre le problème. Si des pages manquent toujours, contactez le support.

Erreurs de synchronisation du site web

Lorsque vous synchronisez le contenu du site web, vous pouvez voir différents statuts qui indiquent ce qui s'est passé pendant le processus. Pour voir le statut de synchronisation de votre site, allez dans Train > Content et sélectionnez la source du site, puis utilisez le menu déroulant Status pour filtrer par :

Synchronisation en cours
En ligne
Échec
Exclu

Voici ce que chacun signifie et ce que vous pouvez faire ensuite :

Synchronisation en cours

La synchronisation de la page est toujours en cours. Une synchronisation initiale peut prendre de quelques minutes à plus d'une heure selon la quantité de contenu que vous avez.

En ligne

La page a été synchronisée avec succès et peut être activée pour Fin et Copilot.

Note : Une synchronisation réussie ne signifie pas toujours que nous avons pu extraire tout le contenu de la page. Si vous souhaitez confirmer la couverture complète, nous recommandons de prévisualiser Fin avec les réponses que vous attendez de cette page.

Exclu

Ces pages ne sont pas synchronisées intentionnellement car vous les avez exclues dans les Paramètres avancés de synchronisation. Elles ne peuvent pas être retentées ou incluses sauf indication contraire.

Échec

Ces erreurs signifient que la synchronisation n'a pas été complétée et peuvent nécessiter des modifications de votre côté avant de réessayer :

1. Erreur inconnue

Message : « Cette page n'a pas pu être accessible. Elle peut être lente ou bloquée. Essayez de synchroniser à nouveau, ou contactez le support si cela échoue. »
Ce que cela signifie : Quelque chose nous a empêchés d'accéder à la page, mais la cause n'est pas claire.

2. Session bloquée / Limitation de débit

Message : « Le site web nous empêche d'accéder à son contenu. Vérifiez s'il est bloqué par un paramètre anti-crawler ou un pare-feu. Vérifiez la configuration de votre site et essayez de synchroniser à nouveau. Si le problème persiste, contactez le support. »
Ce que cela signifie : Votre site bloque ou limite activement notre crawler.

3. Erreurs réseau, délai d'attente ou similaires

Message : « Cette page n'a pas pu être accessible. Elle peut être lente à charger ou bloquée par des paramètres anti-crawler ou un pare-feu. Vérifiez la configuration de votre site et essayez de synchroniser à nouveau. Si le problème persiste, contactez le support.
Ce que cela signifie : La page ne s'est pas chargée à temps ou n'a pas pu être atteinte en raison de problèmes réseau ou de blocage.

4. Doublon

Message : « Cette page a le même contenu qu'une autre déjà synchronisée. Une seule version sera incluse. »
Ce que cela signifie : Nous avons détecté un contenu identique ailleurs, donc une seule copie est conservée.

5. Filtrage par mot-clé

Message : « Les pages avec des mots-clés comme category, collection ou tag dans l'URL sont exclues par défaut, car elles ne contiennent généralement pas de contenu unique. Si cette page doit être incluse, contactez le support. »
Ce que cela signifie : Ces URL représentent souvent des listes, pas des pages de contenu autonomes.

6. Code d'état 400

Message : « Le contenu de la page est introuvable. Vérifiez que l'URL est valide et que la page se charge sans problème.
Ce que cela signifie : L'URL peut être cassée ou renvoyer une erreur sur votre site.

7. URL bloquée

Message : « Ce domain de site web est bloqué pour la synchronisation. Si vous en avez besoin, contactez le support. »
Ce que cela signifie : Le domain est intentionnellement exclu de la synchronisation.

Vous pouvez retenter une synchronisation de page échouée en survolant la page, en sélectionnant le menu à trois points puis en choisissant Resync.

Synchroniser et gérer les sites web