Dokumentation/Vidensgrundlag og crawl

Vidensgrundlag og crawl

Sådan lærer assistenten, hvad der står på dit site, hvad dine PDF'er indeholder, og hvad du selv har skrevet.

Tre vidensgrundlag

Hvert svar, assistenten giver, kommer fra én af tre kilder, du selv styrer:

Crawlede sider — Sider vi automatisk henter fra dit website. Velegnet til produktsider, FAQ'er, blogindlæg — alt det, der allerede er offentligt.
Uploadede dokumenter — PDF-, DOCX- og DOC-filer, du uploader. Velegnet til prislister, vilkår, interne håndbøger, alt det, der ikke ligger på det offentlige site.
Artikler du skriver — Artikler du selv skriver direkte i dashboardet. Velegnet til at udfylde huller, crawlen missede, eller til svar du gerne vil formulere på en bestemt måde.

Ét site, flere kilder

Et Clarifier-site kan trække indhold fra mere end ét sted. Sitet har et primært domæne (sat da du oprettede det), og du kan tilføje yderligere crawl-kilder for naboliggende underdomæner eller specifikke URL'er. Alle kilder fodrer det samme vidensgrundlag — besøgende får svar fra hele dit indhold, uanset hvilken kilde det kom fra.

Primært domæne — Den URL, du brugte til at oprette sitet. Kan ikke fjernes; widgeten kan altid embeddes her.
Yderligere underdomæne — Et naboliggende domæne som blog.acme.com eller shop.acme.com — skal dele samme registrerbare domæne som det primære. Hvert underdomæne scannes uafhængigt og har sine egne inkluder/ekskluder-mønstre. Widgeten kan også embeddes på et tilføjet underdomæne.
Enkelt side — Én specifik URL — nyttig til en side, scannen missede, en netop publiceret side, du ikke vil vente på den næste fulde recrawl for, eller en vigtig side uden for dine normale mønstre.

Alle kilder deler den samme crawl-sidegrænse pr. abonnement. Pros 5.000 sider fordeles, som du vil, mellem primært domæne, underdomæner og enkeltsider tilsammen.

Scan vs. crawl

Når du tilføjer et site, kører Clarifier først en scan: vi læser dit sitemap og et udsnit af siderne for at foreslå URL-mønstre at medtage eller fjerne. Scannen er hurtig og henter ikke hver side. Selve crawlen er den egentlige hentning — den følger de mønstre, du har godkendt, og downloader hver sides indhold. Begge kan køres igen fra dashboardet, når du har ændret dit site.

Medtag- og fjern-mønstre

Efter scannen ser du URL-mønstre grupperet efter struktur — fx /produkter/*, /blog/*, /admin/*. Sæt flueben ved dem, der skal med i crawlen, og fjern flueben ved dem, der skal springes over. Ofte fravalgte: admin-sider, søgeresultater, sideopdelte arkiver, kontosider. Crawlen henter kun sider, der matcher et inkluderet mønster og ikke matcher et ekskluderet.

robots.txt og blokering

Clarifier respekterer robots.txt. Hvis din robots.txt blokerer vores crawler, fortæller dashboardet dig det og linker til en løsning — typisk at fjerne en Disallow-regel, der rammer alle crawlere. Mens crawlen er blokeret, kan du stadig bygge en videnbase fra uploadede dokumenter og selvskrevne artikler; assistenten kender bare ikke dine live-sider.

Hvad sker der efter en crawl

Når indhold er hentet (uanset om det er fra crawlen, en dokumentupload eller en artikel), kører det igennem den samme proces i tre trin:

Teksten deles op i overlappende chunks — cirka 1.500 tegn hver, med 200 tegn overlap så kontekst ikke skæres midt over.
Hver chunk konverteres til en 1.536-dimensionel embedding-vektor med OpenAI's text-embedding-3-small-model.
Vektorerne gemmes i vores søgeindeks. Når en besøgende stiller et spørgsmål, embedder vi spørgsmålet på samme måde og henter de nærmeste chunks, som sprogmodellen bruger til at skrive svaret.

Grænser pr. abonnement

Crawl-sidegrænsen styrer, hvor mange sider vi henter fra dit site. Vidensgrundlag-grænsen styrer, hvor mange uploadede dokumenter og selvskrevne artikler du kan have pr. site tilsammen.

Abonnement	Crawl-sider	Dokumenter + artikler
Starter	500	10
Pro	5,000	50
Business	25,000	200

Har dit site flere sider, end dit abonnement tillader, så brug fjern-mønstre til at springe lavværdi-sektioner over (søgeresultater, arkiver, kontosider), så crawlen fokuserer på de sider, der betyder noget for besøgendes spørgsmål.

Hold assistenten opdateret

Når du udgiver nyt indhold, så kør crawlen igen fra dashboardet. Genupload af et dokument erstatter det gamle; redigering af en artikel opdaterer den på plads. Der findes endnu ikke automatisk recrawl — opdatér manuelt, når dit site har ændret sig markant.