Elenco non esaustivo di fonti utilizzate in questo corso e strumenti di valutazione che possono aiutarti.
Per ulteriori risorse su test e AI, ti consigliamo di consultare le seguenti risorse.
- Learn Testing: aggiorna il tuo approccio ai test.
- Learn AI: progetta sistemi di AI per i tuoi siti web e le tue applicazioni web.
- Google DeepMind Evals: Diversi strumenti di benchmarking standardizzati per diversi tipi di modelli
- Playbook per le valutazioni di Gemini: Ricette per sperimentare e valutare i modelli di AI generativa con Vertex AI.
- Toolkit per l'AI responsabile: valuta la sicurezza di modelli e sistemi.
- Valutare le valutazioni: una meta-lezione su come capire quali valutazioni utilizzare e cosa funziona in modo efficace.
- Creare benchmark AI migliori: quanti valutatori sono sufficienti? Comprendere un framework di valutazione per i modelli ML che ottimizza il compromesso tra il numero di elementi e valutatori per elemento, per creare benchmark di AI riproducibili.
Fonti del corso
Per scrivere questa serie, ci siamo basati su diverse fonti, tra cui:
- AI Engineering: Building Applications with Foundation Models, Chip Huyen
- Riduzione del rischio del controllo qualità per le applicazioni basate su LLM di Michael Hablich, Chrome DevTools
- Using LLM-as-a-Judge For Evaluation: A Complete Guide di Hamel Husain
Strumenti di valutazione
Ecco alcuni esempi di soluzioni e strumenti di valutazione:
- AlignEval
- Arize
- Braintrust
- Datadog
- DeepEval
- Gen AI evaluation service e API
- Inspect Evals
- JudgeLM
- LangSmith
- Imbracatura di valutazione
- OpenEvals
Sono disponibili molti altri strumenti di valutazione. Se utilizzi altri strumenti, condividili con noi.