Temel bir değerlendirici modeli oluşturma (2. bölüm)

Öznel değerlendirmelerinizi çalıştırmak için temel değerlendirici modelinizin kurulumunu tamamlayın.

Hakimi hizalama ve test etme

İlk hakeminiz var ancak henüz güvenemiyorsunuz. Hakeminiz yalnızca insan yargısıyla tutarlı bir şekilde aynı fikirde olduğunda hazır olur.

Bir hizalama veri kümesi oluşturma

Değerlendiricinizi kalibre etmek için uyum veri kümesi gerekir. Bu, insanlar tarafından manuel olarak derecelendirilmiş küçük bir yüksek kaliteli girdi ve çıktı koleksiyonudur. Bu veri kümesi, gerçek kaynağınız olarak kullanılır. Hakimin mantığının beklentilerinizle tutarlı bir şekilde uyumlu olduğunu doğrulamak için kullanırsınız.

Hizalama veri kümeniz 30-50 giriş-çıkış çifti içermelidir. Bu küme, bazı uç durumları kapsayacak kadar büyük ancak kısa sürede etiketleyebileceğiniz kadar küçüktür.

ThemeBuilder örneğinde, hizalama veri kümesindeki bir giriş şu şekilde görünür (giriş, çıkış, insan etiketi):

{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "audience": "kids 5-10",
    "tone": ["prehistoric", "loud", "fun"]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era."
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While on-theme, this motto is too formal for kids.
        It fails to capture the required 'loud' and 'fun' energy."
    }
  }
}

Giriş ve çıkış oluşturmak için üretim günlüklerinden (varsa) ayıklama yapabilir, verileri manuel olarak oluşturabilir, LLM (sentetik veri) kullanabilir veya birkaç elle seçilmiş örnekten başlayıp LLM'den veri kümenizi artırmasını isteyebilirsiniz.

Girişleriniz ve çıkışlarınız hazır olduğunda, ekibinizle birlikte çıkışları PASS veya FAIL olarak etiketlemek için puan anahtarınızı kullanın. Bu, gerçek referans değeriniz olur.

Uygunluk veri kümenizin, zorluk seviyesi değişen PASS örnekleri ve FAIL örnekleri içerdiğinden emin olun. Örneğin:

  • Hakeminizin PASS olarak etiketlediği 10 örnek mutlu yol durumu.
  • Hakeminizin FAIL olarak etiketlediği 20 örnek olay:
    • Bariz hatalar (ör. son derece zararlı veya marka ile tamamen alakasız bir slogan)
    • Küçük hatalar (ör. dilbilgisi açısından kusursuz olan ancak eğlenceli bir marka için biraz fazla resmi olan veya üsluba yalnızca kısmen uyan bir slogan).

LLM yargıcınız bir kapı bekçisidir. Geçme durumlarından daha fazla başarısızlık içeren bir veri kümesi üzerinde hizalamak, puan anahtarını başarısızlıkları yakalayacak şekilde ayarlamak için daha fazla fırsat sunar ve sonuç olarak hakimin başarısızlıkları tespit etme yeteneğini geliştirir.

Hizalama veri kümeniz hazır olduğunda aşağıdaki gibi görünür:

İdeal yol durumları (BAŞARILI)

// Easy, clean input + Good output
{
  "id": "sample-001",
  "userInput": {
    "companyName": "Kinetica",
    "description": "Carbon-fiber plated performance footwear engineered for
    elite marathon runners.",
    "audience": "competitive triathletes and professional runners",
    "tone": [
      "aggressive",
      "high-performance",
      "technical"
    ]
  },
  "appOutput": {
    "motto": "Unlock your kinetic potential.",
    "colorPalette": {
      "textColor": "#FFFFFF",
      "backgroundColor": "#000000",
      "primary": "#DC2626",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "This motto powerfully aligns the brand's technical
      engineering with the ambitious goals of its elite athletic audience.
      Relevance: Uses 'kinetic' to expertly link the brand to physical
      energy. Audience appeal: 'Unlock your potential' resonates perfectly
      with competitive runners. Tone consistency: Nails the required
      aggressive, high-performance marks."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "Perfectly clean and motivational. No offensive or
      exclusionary language."
    },
    "colorBrandFit": {
      "label": "PASS",
      "rationale": "The chosen color palette perfectly mirrors Kinetica's
      aggressive and technical brand identity by utilizing high-impact tones
      that resonate with elite athletes. Relevance: Psychological association:
      Blood red creates urgency and speed. Harmony: Stark contrast against
      black/white feels highly technical.
      Appropriateness: Extremely effective aesthetic for premium athletic gear."
    }
  }
}

Bariz hatalar (FAIL)

// Off-brand color palette
{
  "id": "sample-014",
  "userInput": {
    "companyName": "Rawrr!",
    "description": "Dinosaur themed playground and party venue.",
    "audience": "kids 5-10",
    "tone": [
      "prehistoric",
      "loud",
      "fun"
    ]
  },
  "appOutput": {
    "motto": "Experiencing the prehistoric era.",
    "colorPalette": {
      "textColor": "#4A4A4A",
      "backgroundColor": "#F5F5DC",
      "primary": "#D2B48C",
      "secondary": "#C0C0C0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "FAIL",
      "rationale": "While the motto relates to the dinosaur theme, its overly
      academic and formal tone fails to capture the loud and fun energy
      essential for a children's playground brand. Relevance: Effectively fits
      the dinosaur theme. Audience appeal: A bit formal ('Experiencing' versus
      something punchy), acceptable for parents booking events but should be
      more exciting for kids, it's too formal and academic for a children's
      playground, lacks the 'loud' and 'fun' energy requested in the tone.
      Tone consistency: It touches on the 'prehistoric' element adequately."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A completely family-friendly, educational-sounding statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "This muted and sophisticated color scheme fails to capture
      the high-energy, prehistoric spirit required to attract and excite a young
      audience. Relevance: Psychological association: The 'sad beige', tan, and
      muted greys evoke a sterile, 'adult minimalist' home décor aesthetic.
      Harmony: The colors are muddy and lifeless. Appropriateness: For a 'loud'
      and 'fun' children's playground targeting 5-10 year olds, this palette is
      a spectacular failure. It desperately needs vibrant, exciting primary
      colors to attract kids."
    }
  }
},

Küçük hatalar (FAIL)

// Almost on-brand color palette
{
  "id": "sample-023",
  "userInput": {
    "companyName": "Apex Dental",
    "description": "High-end cosmetic dentistry specializing in porcelain
        veneers and laser whitening.",
    "audience": "Professionals seeking a perfect smile",
    "tone": [
      "clean",
      "professional",
      "bright"
    ]
  },
  "appOutput": {
    "motto": "Designing your brightest smile.",
    "colorPalette": {
      "textColor": "#1A202C",
      "backgroundColor": "#FFFFFF",
      "primary": "#FFC107",
      "secondary": "#E2E8F0"
    }
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "The motto perfectly captures the premium essence of the
      brand by combining high-end dental aesthetics with a clear appeal to a
      professional clientele. Relevance: Relates perfectly to cosmetic
      dentistry and teeth whitening. Audience appeal: 'Brightest smile' is a
      highly effective, aspirational hook for professionals wanting to look
      their best. Tone consistency: Clean, upbeat, and exceedingly professional."
    },
    "mottoToxicity": {
      "label": "PASS",
      "rationale": "A very positive, medical-grade, and safe statement."
    },
    "colorBrandFit": {
      "label": "FAIL",
      "rationale": "The choice of bright yellow is a fundamental branding
      failure for a cosmetic dental practice as it creates a direct and
      repellent visual link to tooth discoloration, undermining the clinic's
      high-end whitening positioning. Relevance: Psychological association:
      While yellow technically fulfills the word 'bright', in the specific
      context of dentistry, a primary bright yellow is subconsciously and
      intensely associated with plaque, decay, and stained teeth.
      Harmony: It stands out strongly but sends the wrong message.
      Appropriateness: This is a massive psychological misstep for a whitening
      clinic. It subverts trust in their core service by visually reminding
      customers of the problem rather than the solution."
    }
  }
},

Erişim hizalama

Kesin referans verileriniz hazır olduğunda, hakemi insan etiketleriyle eşleştirin. Amacınız, hakimin sizinle tutarlı bir şekilde aynı fikirde olmasını ve insan yargısını taklit etmesini sağlamaktır. Uygunluk puanını, hakem tarafından oluşturulan etiketlerin insan tarafından oluşturulan etiketlerle eşleşme yüzdesi olarak hesaplayabilirsiniz.

// total = all test cases
// aligned = test cases where humanEval.label === llmJudgeEval.label
// For example, PASS and PASS
const alignment = (aligned / total) * 100;

Hedef eşleşme puanı belirleyin (ör. %85). Hedefiniz, kullanım alanınıza göre değişebilir.

Değerlendirme modelinizi, hizalama veri kümenize göre çalıştırın. Uygunluk puanınız hedefinizden düşükse neden yanlış etiket sağladığını anlamak için hakimin gerekçesini okuyun. Boşlukları doldurmak için sistem talimatlarını ve yargıç istemini değiştirin. Hedef puanınıza ulaşana kadar bu işlemi tekrarlayın.

En iyi uygulamalar

Hakemin tutarlı bir şekilde puan vermesine yardımcı olmak için aşağıdaki en iyi uygulamaları izleyin:

  • Aşırı uyumdan kaçının. Talimatları genelleştirin ve hizalama veri kümeniz için çok spesifik olmalarını önleyin. Belirli ifadelerden kaçınma gibi talimatlar verdiğinizde değerlendirici, bu belirli hizalama testini etkili bir şekilde geçer ancak yeni verileri genelleştiremez. Bu sorun, aşırı uyum olarak bilinir.
  • Sistem talimatlarınızı ve isteminizi optimize edin. İstem optimizasyonu teknikleri arasında istemleri manuel olarak değiştirme, başka bir LLM'den iyileştirme önerileri isteme veya bu tekniklerin bir kombinasyonuna dayalı değişiklikler uygulama yer alır. İstem optimizasyonu teknikleri manuelden çok gelişmişe kadar değişebilir. Örneğin, biyolojik evrimi taklit eden algoritmalar. Gerekirse geri döndürebilmek için değişikliklerinizin kaydını tutun.

ThemeBuilder'da hizalamanın nasıl çalıştığını görmek için hizalama testini çalıştırın.

Geçme/kalma oranlarını gösteren bir hizalama testinin terminal çıktısı.
Örnek eşleşme testi.

Önyükleme ile stres testi

%85 uyum hedefinize ulaşmak, hakeminizin gerçek dünya verileriyle iyi performans göstereceğini garanti etmez. Bootstrap adı verilen istatistiksel bir teknikle yargıcınızı stres testine tabi tutun. Bootstrapping, ek etiketleme çalışması yapmadan veri kümenizin yeni sürümlerini oluşturur.

  • Test: Veri kümenizdeki 30 öğeyi değiştirerek rastgele yeniden örnekleyin. Bir çalıştırmada zorlu bir durum beş kez seçilebilir ve bu da testi çok daha zor hale getirir. Bu rastgele oluşturulmuş kümelerde hizalama testini birden fazla kez çalıştırın ve bu çalıştırmalardaki ortalama hizalamayı ve puan varyansını hesaplayın. Belirli bir sayı yoktur ancak 10 yineleme, orta ölçekli projeler için faydalı bir temeldir. Daha fazla güven için daha fazla yineleme gerçekleştirin.
  • Düzeltme: Uygunluk puanınız önemli ölçüde dalgalanıyorsa (yüksek varyans) hakeminiz henüz güvenilir değildir. İlk puanınız, birkaç kolay vakadan kaynaklanan bir tesadüftü. Puan anahtarınızı genişletin ve hizalama veri kümenize daha çeşitli ve zorlayıcı örnekler ekleyin.
Yeniden örnekleme ile değiştirmenin belirli veri sınıflarını nasıl fazla veya az temsil edebileceğini gösteren bir bootstrap testinin görsel temsili.
Nesneler, yerine koyma yöntemiyle alt örnekleme yapıldığından bazı sınıflar aşırı temsil edilebilir (bootstrap örnekleri 1 ve 2'deki sarı bilyeler), bazıları ise yeterince temsil edilmeyebilir (bootstrap örnekleri 1 ve 2'deki kırmızı bilyeler) veya hatta eksik olabilir (bootstrap örneği 3'teki yeşil bilyeler). ResearchGate'teki orijinal bilimsel şekli görüntüleyin.

Deneyebilirsiniz.

Bir bootstrap testinin terminal çıktısı.
Örnek bootstrap testi.

Kendine tutarlılık testini yapma

Haklı ancak aynı giriş için her zaman aynı yanıtı veriyorsa güvenilir olabilir. Sıcaklığınızı 0 olarak ayarladıysanız değerlendirici %100 tutarlıdır. Bu tutarlılığı onaylayın.

  • Test: Değerlendiricinizi tam olarak aynı veri kümesinde (ör. uyum veri kümenizden rastgele bir çekiliş) birden çok kez çalıştırın. Bu tekrarlar genelinde her test durumu için varyansı hesaplayın. %100 tutarlılık (sıfır varyans) hedefleyin. Varyans sıfırdan büyükse yargıç aynı giriş için farklı yanıtlar verdiğinden test başarısız olur.
  • Düzeltme: Değerlendirme isteminiz belirsiz olabilir veya sıcaklık çok yüksek olabilir. İstemde net olmayan kısımları, özellikle de puanlama ölçütlerinizi yeniden yazın. Henüz yapmadıysanız sıcaklığı 0'a düşürün (veya thinking_level değerini yüksek olarak ayarlayın).

Bu özelliği uygulamalı olarak görmek için testi çalıştırın.

Tutarlılık testinin terminal çıkışı.
Bu örnekte, üç metriğimizin (slogan toksisitesi, slogan marka uyumu ve renk marka uyumu) her biri için 6 örnek test ettik. Sonuçlar neredeyse tamamen tutarlıydı ancak birkaç örnekte tutarsız sonuçlar vardı.

Final sınavı

Bootstrapping, aşırı uyumu önlemek için ilk kontrolü çalıştırmanıza yardımcı oldu. Ardından, yeni verileri kullanarak son bir test çalıştıracaksınız. Bu, hakemin yeni girişleri doğru şekilde puanlayabileceğinin son onayıdır.

  • Test: Hizalama sırasında kullanmadığınız, insan tarafından etiketlenmiş 20 örnekten oluşan ayrı bir nihai sınav veri kümesi tutun. Hakeminizi bu kümeye göre çalıştırın.
  • Düzeltme: Uyum puanınız yüksek kalırsa hakeminiz hazırdır. Puanın keskin bir şekilde düşmesi, aşırı uyum olduğunu gösterir: İsteminiz, belirli uyum verilerinizi geçmek için çok fazla ayarlanmıştır. İsteminizi, değerlendirme ölçeğinizi ve az örnekli örneklerinizi genişletin.

Bu özelliği uygulamalı olarak görmek için testi çalıştırın.

Özet

Temel hakiminizi oluşturmak için aşağıdakiler de dahil olmak üzere farklı testler yaptınız:

  • Uygunluk testi, yargıcın doğru olup olmadığını kontrol eder.
  • Bootstrapping ve final sınavı testi veri hassasiyetini kontrol eder: Hakimin yeni verilerle karşılaştığında doğru kalma yeteneği.
  • Kendine tutarlılık testi, LLM hakeminin kendi içindeki rastgeleliğin sonuçları ne kadar etkilediğini gösteren sistem gürültüsünü ölçer.