Génial ce tuto ! En revanche j'ai une erreur "The operation failed with an error. The operation timed out" à l'étape de RUN avec Mistral. Auriez-vous un petit tips pour me débloquer ?
On rencontre cette erreur quand le modèle Mistral met trop de temps à répondre (d'où le "time-out").
Mon conseil serait de remplacer dans le module Mistral le modèle "mistral-large-latest" par un modèle plus petit qui devrait s'exécuter plus rapidement, comme "open-mixtral-8x7b" ou "mistral-medium-latest".
Vous pouvez aussi expérimenter avec différents modèles pour voir si cela fonctionne mieux.
N'hésitez pas à me dire si cela règle votre erreur !
Il semble toutefois y avoir une grosse limite à cette démo : Mistral ne va pas aller lire chaque article mais seulement les titres, et de là imaginer un résumé de contenu à partir de cette seule information.
Par soucis de simplicité, j'ai choisi de montrer ici un scénario avec un seul niveau d'information (si la page contient des titres d'articles, alors Mistral aura accès aux titres ; si la page contient un ou plusieurs articles, alors Mistral aura accès au contenu de ce ou ces articles).
Vous pourriez aller plus loin (bien que cela soit plus complexe) en créant un scénario qui procède en deux étapes : 1. Récupération de l'ensemble des URLs d'une page ; 2. Module Iterator parcourant le contenu de l'ensemble de ces URLs.
Enfin, une autre solution serait d'utiliser un crawler "récursif" comme ceux proposés sur https://apify.com/ par exemple.
Merci pour votre retour ! Une interrogation subsiste cependant. La limite de 45 secondes pour l'exécution d'un module ne risque-t-elle pas d'empêcher Iterator de parcourir l'ensemble des urls d'un site donné ?
C'est une bonne question. A priori, l'exécution du module iterator est très rapide car il ne s'agit que de sélectionner une URL à chaque itération, ce qui ne devrait prendre que quelques secondes. Le module Iterator ne devrait donc pas causer de timeout.
La limitation pourrait venir du temps d'exécution du scénario global, si le nombre d'URLs est très important (plusieurs dizaines).
Il me semble qu'en plan gratuit, le temps total d'exécution d'un scénario Make.com est limité à 10min.
Si votre scénario doit traiter un grand nombre d'URLs vous pouvez soit : 1. Limiter le nombre d'URLs prises en compte à chaque exécution du scénario (prendre les 10 ou 15 premières) ; 2. Utiliser une autre solutions permettant le crawling récursif (solutions payantes en général) ; 3. Construire votre propre système de crawling à partir de technologies comme Selenium, Playright, Puppeteer, etc.
Super ce tuto! Question: est-ce que servir d'une telle automatisation peut être considéré comme "crawler" un site? (et donc y-a-t-il une chance de se faire flagger/blocker par les sites consulté?)
En effet, ce type de "crawling" peut parfois être bloqué. Pour vérifier si c'est le cas, vous pouvez consulter le fichier robots.txt du site en question (en accédant à https://www.exemple.com/robots.txt). Ce fichier indiquera quels crawlers sont interdits et pour quelles parties du site.
En général, tant que vous ne faites pas trop de requêtes par minute, les requêtes venant de Make.com sont rarement bloquées.
Si vous avez des doutes, il est toujours préférable d'utiliser l'API du service concerné, ou de demander un accès explicite aux données.
1. Pour utiliser des newsletters en entrée, il faut remplacer les modules Iterator et HTTP par un module Gmail, et le connecter à son compte Google. Dans Gmail, on regroupe toutes les newsletters que l'on souhaite agréger dans un label spécifique, par exemple "Veille_auto". On peut alors paramétrer dans Make.com le module Gmail pour qu'il détecte tout nouvel email avec ce label et en récupère le texte HTML que l'on passe ensuite au module Text Parser.
2. Pour agréger plusieurs résumés et mettre en forme un brief de veille, il faut en fait créer un second scénario Make.com qui fera un résumé des synthèses sur une temporalité donnée (quotidienne ou hebdomadaire, par exemple). C'est précisément l'objet du prochain tuto qui devrait être publié d'ici 2 semaines !
C'est une bonne question. A priori, l'exécution du module iterator est très rapide car il ne s'agit que de sélectionner une URL à chaque itération, ce qui ne devrait prendre que quelques secondes. Le module Iterator ne devrait donc pas causer de timeout.
La limitation pourrait venir du temps d'exécution du scénario global, si le nombre d'URLs est très important (plusieurs dizaines).
Il me semble qu'en plan gratuit, le temps total d'exécution d'un scénario Make.com est limité à 10min.
Si votre scénario doit traiter un grand nombre d'URLs vous pouvez soit : 1. Limiter le nombre d'URLs prises en compte à chaque exécution du scénario (prendre les 10 ou 15 premières) ; 2. Utiliser une autre solutions permettant le crawling récursif (solutions payantes en général) ; 3. Construire votre propre système de crawling à partir de technologies comme Selenium, Playright, Puppeteer, etc.
Curieux d'apprendre à étendre cette veille "sites web" à d'autres sources comme les flux RSS, les alertes Google, les publications sur les RS... Encore merci pour ces deux premiers partages très instructifs.
Ca peut arriver, en effet, parfois les modèles de langage peuvent être imprévisibles.
Je vous conseille d'insister dans le prompt sur la traduction en français ("IMPORTANT : systématiquement traduire l'entièreté du message en français.").
La seconde option serait de tester différents modèles Mistral pour trouver celui qui respecte le mieux ces instructions.
Génial ce tuto ! En revanche j'ai une erreur "The operation failed with an error. The operation timed out" à l'étape de RUN avec Mistral. Auriez-vous un petit tips pour me débloquer ?
Bonjour Pierre-Laurent, merci pour le feedback !
On rencontre cette erreur quand le modèle Mistral met trop de temps à répondre (d'où le "time-out").
Mon conseil serait de remplacer dans le module Mistral le modèle "mistral-large-latest" par un modèle plus petit qui devrait s'exécuter plus rapidement, comme "open-mixtral-8x7b" ou "mistral-medium-latest".
Vous pouvez aussi expérimenter avec différents modèles pour voir si cela fonctionne mieux.
N'hésitez pas à me dire si cela règle votre erreur !
Ca fonctionne effectivement avec "mistral-medium-latest". Merci beaucoup !
Bonjour,
Bravo et merci pour le tuto.
Il semble toutefois y avoir une grosse limite à cette démo : Mistral ne va pas aller lire chaque article mais seulement les titres, et de là imaginer un résumé de contenu à partir de cette seule information.
Bonjour,
Merci pour le feedback !
Par soucis de simplicité, j'ai choisi de montrer ici un scénario avec un seul niveau d'information (si la page contient des titres d'articles, alors Mistral aura accès aux titres ; si la page contient un ou plusieurs articles, alors Mistral aura accès au contenu de ce ou ces articles).
Vous pourriez aller plus loin (bien que cela soit plus complexe) en créant un scénario qui procède en deux étapes : 1. Récupération de l'ensemble des URLs d'une page ; 2. Module Iterator parcourant le contenu de l'ensemble de ces URLs.
Enfin, une autre solution serait d'utiliser un crawler "récursif" comme ceux proposés sur https://apify.com/ par exemple.
Merci pour votre retour ! Une interrogation subsiste cependant. La limite de 45 secondes pour l'exécution d'un module ne risque-t-elle pas d'empêcher Iterator de parcourir l'ensemble des urls d'un site donné ?
C'est une bonne question. A priori, l'exécution du module iterator est très rapide car il ne s'agit que de sélectionner une URL à chaque itération, ce qui ne devrait prendre que quelques secondes. Le module Iterator ne devrait donc pas causer de timeout.
La limitation pourrait venir du temps d'exécution du scénario global, si le nombre d'URLs est très important (plusieurs dizaines).
Il me semble qu'en plan gratuit, le temps total d'exécution d'un scénario Make.com est limité à 10min.
Si votre scénario doit traiter un grand nombre d'URLs vous pouvez soit : 1. Limiter le nombre d'URLs prises en compte à chaque exécution du scénario (prendre les 10 ou 15 premières) ; 2. Utiliser une autre solutions permettant le crawling récursif (solutions payantes en général) ; 3. Construire votre propre système de crawling à partir de technologies comme Selenium, Playright, Puppeteer, etc.
Super ce tuto! Question: est-ce que servir d'une telle automatisation peut être considéré comme "crawler" un site? (et donc y-a-t-il une chance de se faire flagger/blocker par les sites consulté?)
Merci !
En effet, ce type de "crawling" peut parfois être bloqué. Pour vérifier si c'est le cas, vous pouvez consulter le fichier robots.txt du site en question (en accédant à https://www.exemple.com/robots.txt). Ce fichier indiquera quels crawlers sont interdits et pour quelles parties du site.
En général, tant que vous ne faites pas trop de requêtes par minute, les requêtes venant de Make.com sont rarement bloquées.
Si vous avez des doutes, il est toujours préférable d'utiliser l'API du service concerné, ou de demander un accès explicite aux données.
Super complet merci
Bravo pour ce tuto très didactique et directement actionnable !
2 petites questions :
- comment paramétrer l'itérateur à l'entrée lorsque la veille porte sur des Newsletters auxquelles on est abonné ?
- comment créer un mail de synthèse qui agrège tous les résumés des newsletters du jour ? Text aggregator ?
Merci pour ce feedback !
Voilà mes réponses :
1. Pour utiliser des newsletters en entrée, il faut remplacer les modules Iterator et HTTP par un module Gmail, et le connecter à son compte Google. Dans Gmail, on regroupe toutes les newsletters que l'on souhaite agréger dans un label spécifique, par exemple "Veille_auto". On peut alors paramétrer dans Make.com le module Gmail pour qu'il détecte tout nouvel email avec ce label et en récupère le texte HTML que l'on passe ensuite au module Text Parser.
2. Pour agréger plusieurs résumés et mettre en forme un brief de veille, il faut en fait créer un second scénario Make.com qui fera un résumé des synthèses sur une temporalité donnée (quotidienne ou hebdomadaire, par exemple). C'est précisément l'objet du prochain tuto qui devrait être publié d'ici 2 semaines !
Vivement ce 3e auto alors ;) ! Les 2 premiers sont top, merci.
C'est une bonne question. A priori, l'exécution du module iterator est très rapide car il ne s'agit que de sélectionner une URL à chaque itération, ce qui ne devrait prendre que quelques secondes. Le module Iterator ne devrait donc pas causer de timeout.
La limitation pourrait venir du temps d'exécution du scénario global, si le nombre d'URLs est très important (plusieurs dizaines).
Il me semble qu'en plan gratuit, le temps total d'exécution d'un scénario Make.com est limité à 10min.
Si votre scénario doit traiter un grand nombre d'URLs vous pouvez soit : 1. Limiter le nombre d'URLs prises en compte à chaque exécution du scénario (prendre les 10 ou 15 premières) ; 2. Utiliser une autre solutions permettant le crawling récursif (solutions payantes en général) ; 3. Construire votre propre système de crawling à partir de technologies comme Selenium, Playright, Puppeteer, etc.
Curieux d'apprendre à étendre cette veille "sites web" à d'autres sources comme les flux RSS, les alertes Google, les publications sur les RS... Encore merci pour ces deux premiers partages très instructifs.
De : Emmanuel.
Super merci pour ce tuto,
Dans mon cas seul le premier site web est traduis en français, les 2 autres restant en anglais ??
Content que le tuto vous plaise !
Ca peut arriver, en effet, parfois les modèles de langage peuvent être imprévisibles.
Je vous conseille d'insister dans le prompt sur la traduction en français ("IMPORTANT : systématiquement traduire l'entièreté du message en français.").
La seconde option serait de tester différents modèles Mistral pour trouver celui qui respecte le mieux ces instructions.
super merci pour cette réponse
J'ai donc rajouté l'instruction IMPORTANT et cela fonctionne.
je vais pouvoir passer au prochain tuto :)
Bonjour,
Je n'arrive pas à copier-coller les adresses des sites Internet dans le contrôle de flux de l'Iterator. Impossible de les saisir non plus.
Pareil pour le prompt dans Mistral AI Create a chat completion, Le module ne conserve pas le texte du prompt. Comment faire ?
Bonjour,
Une fois que vous avez rempli le module, vous devez vous assurer de bien valider les modifications apportées au module en cliquant sur "OK".
Pensez aussi à sauvegarder votre scénario Make en cliquant sur la disquette en bas à gauche de l'écran.
N'hésitez pas à me dire si cela fonctionne.