Öznel değerlendirmelerinizi çalıştırmak için temel değerlendirici modelinizin kurulumunu tamamlayın.
Hakimi hizalama ve test etme
İlk hakeminiz var ancak henüz güvenemiyorsunuz. Hakeminiz yalnızca insan yargısıyla tutarlı bir şekilde aynı fikirde olduğunda hazır olur.
Bir hizalama veri kümesi oluşturma
Değerlendiricinizi kalibre etmek için uyum veri kümesi gerekir. Bu, insanlar tarafından manuel olarak derecelendirilmiş küçük bir yüksek kaliteli girdi ve çıktı koleksiyonudur. Bu veri kümesi, gerçek kaynağınız olarak kullanılır. Hakimin mantığının beklentilerinizle tutarlı bir şekilde uyumlu olduğunu doğrulamak için kullanırsınız.
Hizalama veri kümeniz 30-50 giriş-çıkış çifti içermelidir. Bu küme, bazı uç durumları kapsayacak kadar büyük ancak kısa sürede etiketleyebileceğiniz kadar küçüktür.
ThemeBuilder örneğinde, hizalama veri kümesindeki bir giriş şu şekilde görünür (giriş, çıkış, insan etiketi):
{
"id": "sample-014",
"userInput": {
"companyName": "Rawrr!",
"audience": "kids 5-10",
"tone": ["prehistoric", "loud", "fun"]
},
"appOutput": {
"motto": "Experiencing the prehistoric era."
},
"humanEvaluation": {
"mottoBrandFit": {
"label": "FAIL",
"rationale": "While on-theme, this motto is too formal for kids.
It fails to capture the required 'loud' and 'fun' energy."
}
}
}
Giriş ve çıkış oluşturmak için üretim günlüklerinden (varsa) ayıklama yapabilir, verileri manuel olarak oluşturabilir, LLM (sentetik veri) kullanabilir veya birkaç elle seçilmiş örnekten başlayıp LLM'den veri kümenizi artırmasını isteyebilirsiniz.
Girişleriniz ve çıkışlarınız hazır olduğunda, ekibinizle birlikte çıkışları PASS veya FAIL olarak etiketlemek için puan anahtarınızı kullanın. Bu, gerçek referans değeriniz olur.
Uygunluk veri kümenizin, zorluk seviyesi değişen PASS örnekleri ve FAIL örnekleri içerdiğinden emin olun. Örneğin:
- Hakeminizin
PASSolarak etiketlediği 10 örnek mutlu yol durumu. - Hakeminizin
FAILolarak etiketlediği 20 örnek olay:- Bariz hatalar (ör. son derece zararlı veya marka ile tamamen alakasız bir slogan)
- Küçük hatalar (ör. dilbilgisi açısından kusursuz olan ancak eğlenceli bir marka için biraz fazla resmi olan veya üsluba yalnızca kısmen uyan bir slogan).
LLM yargıcınız bir kapı bekçisidir. Geçme durumlarından daha fazla başarısızlık içeren bir veri kümesi üzerinde hizalamak, puan anahtarını başarısızlıkları yakalayacak şekilde ayarlamak için daha fazla fırsat sunar ve sonuç olarak hakimin başarısızlıkları tespit etme yeteneğini geliştirir.
Hizalama veri kümeniz hazır olduğunda aşağıdaki gibi görünür:
İdeal yol durumları (BAŞARILI)
// Easy, clean input + Good output
{
"id": "sample-001",
"userInput": {
"companyName": "Kinetica",
"description": "Carbon-fiber plated performance footwear engineered for
elite marathon runners.",
"audience": "competitive triathletes and professional runners",
"tone": [
"aggressive",
"high-performance",
"technical"
]
},
"appOutput": {
"motto": "Unlock your kinetic potential.",
"colorPalette": {
"textColor": "#FFFFFF",
"backgroundColor": "#000000",
"primary": "#DC2626",
"secondary": "#E2E8F0"
}
},
"humanEvaluation": {
"mottoBrandFit": {
"label": "PASS",
"rationale": "This motto powerfully aligns the brand's technical
engineering with the ambitious goals of its elite athletic audience.
Relevance: Uses 'kinetic' to expertly link the brand to physical
energy. Audience appeal: 'Unlock your potential' resonates perfectly
with competitive runners. Tone consistency: Nails the required
aggressive, high-performance marks."
},
"mottoToxicity": {
"label": "PASS",
"rationale": "Perfectly clean and motivational. No offensive or
exclusionary language."
},
"colorBrandFit": {
"label": "PASS",
"rationale": "The chosen color palette perfectly mirrors Kinetica's
aggressive and technical brand identity by utilizing high-impact tones
that resonate with elite athletes. Relevance: Psychological association:
Blood red creates urgency and speed. Harmony: Stark contrast against
black/white feels highly technical.
Appropriateness: Extremely effective aesthetic for premium athletic gear."
}
}
}
Bariz hatalar (FAIL)
// Off-brand color palette
{
"id": "sample-014",
"userInput": {
"companyName": "Rawrr!",
"description": "Dinosaur themed playground and party venue.",
"audience": "kids 5-10",
"tone": [
"prehistoric",
"loud",
"fun"
]
},
"appOutput": {
"motto": "Experiencing the prehistoric era.",
"colorPalette": {
"textColor": "#4A4A4A",
"backgroundColor": "#F5F5DC",
"primary": "#D2B48C",
"secondary": "#C0C0C0"
}
},
"humanEvaluation": {
"mottoBrandFit": {
"label": "FAIL",
"rationale": "While the motto relates to the dinosaur theme, its overly
academic and formal tone fails to capture the loud and fun energy
essential for a children's playground brand. Relevance: Effectively fits
the dinosaur theme. Audience appeal: A bit formal ('Experiencing' versus
something punchy), acceptable for parents booking events but should be
more exciting for kids, it's too formal and academic for a children's
playground, lacks the 'loud' and 'fun' energy requested in the tone.
Tone consistency: It touches on the 'prehistoric' element adequately."
},
"mottoToxicity": {
"label": "PASS",
"rationale": "A completely family-friendly, educational-sounding statement."
},
"colorBrandFit": {
"label": "FAIL",
"rationale": "This muted and sophisticated color scheme fails to capture
the high-energy, prehistoric spirit required to attract and excite a young
audience. Relevance: Psychological association: The 'sad beige', tan, and
muted greys evoke a sterile, 'adult minimalist' home décor aesthetic.
Harmony: The colors are muddy and lifeless. Appropriateness: For a 'loud'
and 'fun' children's playground targeting 5-10 year olds, this palette is
a spectacular failure. It desperately needs vibrant, exciting primary
colors to attract kids."
}
}
},
Küçük hatalar (FAIL)
// Almost on-brand color palette
{
"id": "sample-023",
"userInput": {
"companyName": "Apex Dental",
"description": "High-end cosmetic dentistry specializing in porcelain
veneers and laser whitening.",
"audience": "Professionals seeking a perfect smile",
"tone": [
"clean",
"professional",
"bright"
]
},
"appOutput": {
"motto": "Designing your brightest smile.",
"colorPalette": {
"textColor": "#1A202C",
"backgroundColor": "#FFFFFF",
"primary": "#FFC107",
"secondary": "#E2E8F0"
}
},
"humanEvaluation": {
"mottoBrandFit": {
"label": "PASS",
"rationale": "The motto perfectly captures the premium essence of the
brand by combining high-end dental aesthetics with a clear appeal to a
professional clientele. Relevance: Relates perfectly to cosmetic
dentistry and teeth whitening. Audience appeal: 'Brightest smile' is a
highly effective, aspirational hook for professionals wanting to look
their best. Tone consistency: Clean, upbeat, and exceedingly professional."
},
"mottoToxicity": {
"label": "PASS",
"rationale": "A very positive, medical-grade, and safe statement."
},
"colorBrandFit": {
"label": "FAIL",
"rationale": "The choice of bright yellow is a fundamental branding
failure for a cosmetic dental practice as it creates a direct and
repellent visual link to tooth discoloration, undermining the clinic's
high-end whitening positioning. Relevance: Psychological association:
While yellow technically fulfills the word 'bright', in the specific
context of dentistry, a primary bright yellow is subconsciously and
intensely associated with plaque, decay, and stained teeth.
Harmony: It stands out strongly but sends the wrong message.
Appropriateness: This is a massive psychological misstep for a whitening
clinic. It subverts trust in their core service by visually reminding
customers of the problem rather than the solution."
}
}
},
Erişim hizalama
Kesin referans verileriniz hazır olduğunda, hakemi insan etiketleriyle eşleştirin. Amacınız, hakimin sizinle tutarlı bir şekilde aynı fikirde olmasını ve insan yargısını taklit etmesini sağlamaktır. Uygunluk puanını, hakem tarafından oluşturulan etiketlerin insan tarafından oluşturulan etiketlerle eşleşme yüzdesi olarak hesaplayabilirsiniz.
// total = all test cases
// aligned = test cases where humanEval.label === llmJudgeEval.label
// For example, PASS and PASS
const alignment = (aligned / total) * 100;
Hedef eşleşme puanı belirleyin (ör. %85). Hedefiniz, kullanım alanınıza göre değişebilir.
Değerlendirme modelinizi, hizalama veri kümenize göre çalıştırın. Uygunluk puanınız hedefinizden düşükse neden yanlış etiket sağladığını anlamak için hakimin gerekçesini okuyun. Boşlukları doldurmak için sistem talimatlarını ve yargıç istemini değiştirin. Hedef puanınıza ulaşana kadar bu işlemi tekrarlayın.
En iyi uygulamalar
Hakemin tutarlı bir şekilde puan vermesine yardımcı olmak için aşağıdaki en iyi uygulamaları izleyin:
- Aşırı uyumdan kaçının. Talimatları genelleştirin ve hizalama veri kümeniz için çok spesifik olmalarını önleyin. Belirli ifadelerden kaçınma gibi talimatlar verdiğinizde değerlendirici, bu belirli hizalama testini etkili bir şekilde geçer ancak yeni verileri genelleştiremez. Bu sorun, aşırı uyum olarak bilinir.
- Sistem talimatlarınızı ve isteminizi optimize edin. İstem optimizasyonu teknikleri arasında istemleri manuel olarak değiştirme, başka bir LLM'den iyileştirme önerileri isteme veya bu tekniklerin bir kombinasyonuna dayalı değişiklikler uygulama yer alır. İstem optimizasyonu teknikleri manuelden çok gelişmişe kadar değişebilir. Örneğin, biyolojik evrimi taklit eden algoritmalar. Gerekirse geri döndürebilmek için değişikliklerinizin kaydını tutun.
ThemeBuilder'da hizalamanın nasıl çalıştığını görmek için hizalama testini çalıştırın.
Önyükleme ile stres testi
%85 uyum hedefinize ulaşmak, hakeminizin gerçek dünya verileriyle iyi performans göstereceğini garanti etmez. Bootstrap adı verilen istatistiksel bir teknikle yargıcınızı stres testine tabi tutun. Bootstrapping, ek etiketleme çalışması yapmadan veri kümenizin yeni sürümlerini oluşturur.
- Test: Veri kümenizdeki 30 öğeyi değiştirerek rastgele yeniden örnekleyin. Bir çalıştırmada zorlu bir durum beş kez seçilebilir ve bu da testi çok daha zor hale getirir. Bu rastgele oluşturulmuş kümelerde hizalama testini birden fazla kez çalıştırın ve bu çalıştırmalardaki ortalama hizalamayı ve puan varyansını hesaplayın. Belirli bir sayı yoktur ancak 10 yineleme, orta ölçekli projeler için faydalı bir temeldir. Daha fazla güven için daha fazla yineleme gerçekleştirin.
- Düzeltme: Uygunluk puanınız önemli ölçüde dalgalanıyorsa (yüksek varyans) hakeminiz henüz güvenilir değildir. İlk puanınız, birkaç kolay vakadan kaynaklanan bir tesadüftü. Puan anahtarınızı genişletin ve hizalama veri kümenize daha çeşitli ve zorlayıcı örnekler ekleyin.
Kendine tutarlılık testini yapma
Haklı ancak aynı giriş için her zaman aynı yanıtı veriyorsa güvenilir olabilir. Sıcaklığınızı 0 olarak ayarladıysanız değerlendirici %100 tutarlıdır. Bu tutarlılığı onaylayın.
- Test: Değerlendiricinizi tam olarak aynı veri kümesinde (ör. uyum veri kümenizden rastgele bir çekiliş) birden çok kez çalıştırın. Bu tekrarlar genelinde her test durumu için varyansı hesaplayın. %100 tutarlılık (sıfır varyans) hedefleyin. Varyans sıfırdan büyükse yargıç aynı giriş için farklı yanıtlar verdiğinden test başarısız olur.
- Düzeltme: Değerlendirme isteminiz belirsiz olabilir veya sıcaklık çok yüksek olabilir.
İstemde net olmayan kısımları, özellikle de puanlama ölçütlerinizi yeniden yazın. Henüz yapmadıysanız sıcaklığı 0'a düşürün (veya
thinking_leveldeğerini yüksek olarak ayarlayın).
Bu özelliği uygulamalı olarak görmek için testi çalıştırın.
Final sınavı
Bootstrapping, aşırı uyumu önlemek için ilk kontrolü çalıştırmanıza yardımcı oldu. Ardından, yeni verileri kullanarak son bir test çalıştıracaksınız. Bu, hakemin yeni girişleri doğru şekilde puanlayabileceğinin son onayıdır.
- Test: Hizalama sırasında kullanmadığınız, insan tarafından etiketlenmiş 20 örnekten oluşan ayrı bir nihai sınav veri kümesi tutun. Hakeminizi bu kümeye göre çalıştırın.
- Düzeltme: Uyum puanınız yüksek kalırsa hakeminiz hazırdır. Puanın keskin bir şekilde düşmesi, aşırı uyum olduğunu gösterir: İsteminiz, belirli uyum verilerinizi geçmek için çok fazla ayarlanmıştır. İsteminizi, değerlendirme ölçeğinizi ve az örnekli örneklerinizi genişletin.
Bu özelliği uygulamalı olarak görmek için testi çalıştırın.
Özet
Temel hakiminizi oluşturmak için aşağıdakiler de dahil olmak üzere farklı testler yaptınız:
- Uygunluk testi, yargıcın doğru olup olmadığını kontrol eder.
- Bootstrapping ve final sınavı testi veri hassasiyetini kontrol eder: Hakimin yeni verilerle karşılaştığında doğru kalma yeteneği.
- Kendine tutarlılık testi, LLM hakeminin kendi içindeki rastgeleliğin sonuçları ne kadar etkilediğini gösteren sistem gürültüsünü ölçer.