Wat je zult leren

Wat je van deze serie kunt verwachten en wat je moet weten voordat je begint.

In deze serie bouw je evaluaties (evals) voor onze voorbeeldapplicatie ThemeBuilder. Je leert hoe je:

  • Ontwikkel een robuuste, complete evaluatieworkflow, zodat u er zeker van kunt zijn dat u uw product aan uw gebruikers kunt leveren.
  • Gebruik het LLM-als-rechter-model om subjectieve kwaliteit te meten. Creëer een beoordelaar met minimale configuratie, of gebruik geavanceerde technieken om een ​​aangepaste beoordelaar te ontwikkelen die denkt als topexperts in het betreffende vakgebied.
  • Automatiseer je pipeline door evaluaties uit te voeren tijdens het buildproces (CI/CD) en in productie, om regressies vroegtijdig op te sporen.
  • Pas technieken toe die je statistische zekerheid geven en bewijzen dat je resultaten niet zomaar een toevalstreffer uit je testgroep zijn, en optimaliseer je evaluatieontwerp om verborgen regressies op te sporen.
  • Gebruik evaluaties om het beste model voor jouw specifieke toepassing te selecteren.

Benadering

Beschouw deze reeks als je startpunt. Je kunt je volledige evaluatieproces opzetten met alleen de belangrijkste richtlijnen, die we hebben gebaseerd op de beste praktijken in de branche, en meer geavanceerde technieken verkennen wanneer je klaar bent om een ​​stap verder te gaan.

Of je nu een kant-en-klaar evaluatieplatform gebruikt of er zelf een bouwt, de concepten en technieken die je leert zijn tool-onafhankelijk. Inzicht in de achterliggende redenen helpt je veelvoorkomende valkuilen te vermijden en een professionele evaluatiepipeline te ontwikkelen, ongeacht de gekozen technologie.

Na voltooiing weet u hoe u uw prompt kunt verfijnen, uw LLM kunt upgraden of uw LLM kunt wijzigen en deze met vertrouwen aan uw gebruikers kunt leveren.

Voorwaarden

Je moet enige ervaring hebben met het bouwen met LLM's. We gaan ervan uit dat je al vertrouwd bent met: