Uzman bir değerlendirici oluşturma

Yargıcınızı üretime hazırlayın.

Temel bir değerlendirici modeli oluşturma, 1. bölüm ve 2. bölüm'de oluşturduğunuz temel değerlendirici, kendi etiketlediğiniz verilere dayanıyordu. Bu, test için bir temel oluşturmanın harika bir yoludur. Ancak üretim düzeyinde kalite elde etmek için alan uzmanı gibi düşünen bir hakime ve ölçekli olarak güvenebileceğiniz güçlü istatistiksel metriklere ihtiyacınız vardır. Bu makalede ele alacağımız konu budur.

Uzmanlarla birlikte bir hizalama veri kümesi oluşturma

Hizalama veri kümenizi etiketlemek için uzmanlardan yararlanmak, güvenilir bir LLM hakimi oluşturmanın anahtarıdır. Nicelikten çok niteliğe öncelik verin. Bir alan uzmanının verdiği 30 yüksek kaliteli etiket, uzman olmayan kişilerin verdiği 300 etiketten çok daha iyidir.

Etiketleyenleri bulma

Marka uyumu için şirket içi tasarımcılardan ve marka uzmanlarından yararlanın. Zararlılık için aynı etiketleyicilerden yararlanabilir veya etiketleyicilerin aynı notlandırma ölçütlerini kullanmasını sağlamak amacıyla merkezi bir değerlendirme ölçeğine göre ekibinizden etiketler alabilirsiniz.

Kaç uzman etiketleyici var?

  • Tek uzman: Bu yöntem hızlıdır ve başlamak için uygundur ancak değerlendiriciniz, kişinin önyargılarını devralır.
  • İki uzman: Bu, bütçe açısından ideal bir nokta olabilir. Beraberlikleri bozamasanız da anlaşmazlıkları tespit edebilirsiniz.
  • Üç ve üzeri: Bu, ulaşmak istediğimiz esas hedeftir. Tek sayı kullanmak, çoğunluk derecelendirmesini kullanabileceğiniz için örneğimizdeki gibi ikili PASS ve FAIL değerlendirmelerinde otomatik olarak eşitliği bozar.

ThemeBuilder için, uzman etiketleyicilerimiz olmayı kabul eden üç marka tasarımcınızın olduğunu varsayalım.

Uzmanlar puan anahtarı oluşturur

Etiketlemeden önce uzmanlardan bir PASS için belirli ölçütlerin yer aldığı katı bir değerlendirme ölçeği tanımlamalarını isteyin. Bu sayede uzmanlarınız hem bireysel hem de toplu olarak değerlendirmelerinde tutarlı olabilir.

Örneğin:

Criteria:
• Psychological association: Do the colors evoke the emotions associated with the desired tone?
• Harmony: Do the colors work together to create the right atmosphere?
• Appropriateness: Is the palette suitable for the company's industry?

Uzmanlar verileri etiketler

Uzmanlarınızın 30-50 örneği incelemesini, puan anahtarına göre PASS veya FAIL etiketi atamasını ve değerlendirmelerini açıklayan bir rationale yazmasını sağlayın. Gerekçe, hakemimiz ile uzmanlarımız arasındaki uyumsuzluğu gidermek ve düzeltmek için kullanacağınızdan önemlidir.

Uzmanlarınızın temaları değerlendirmesine yardımcı olacak bir e-tablo arayüzü.
Uzman etiketleyiciler için web uygulaması. Bu kullanıcı arayüzü, Eugene Yan'ın AlignEvals'inden ilham alınarak oluşturulmuştur.

Etkili etiketleme için ipuçları

Manuel etiketleme pahalıdır. Uzmanlarınızın verimliliğini optimize etmek için aşağıdaki teknikleri deneyin:

  • Yalnızca doğrulama: İlk etiketleri ve gerekçeleri oluşturmak için bir LLM kullanın, ardından uzmanlar tarafından denetlenip düzeltilmesini sağlayın. Doğrulama işlemi, sıfırdan bir değerlendirme oluşturmaktan daha hızlıdır.
  • Seçici etiketleme: İkinci bir uzmanın, ilk uzmanın çalışmasının küçük bir alt kümesini denetlemesini sağlayın. Aynı fikirde değillerse durun ve daha fazla etiketleme yapmadan önce değerlendirme ölçeğini düzeltin.
  • İkinci görüş olarak LLM: Bir uzman ve bir LLM, aynı öğeleri etiketlesin. Anlaşma oranı düşükse LLM, değerlendirme ölçeğini farklı şekilde anlıyor demektir. Puanlama anahtarı üzerinde, kriterler uyumlu hale gelene kadar yineleme yapın.
  • Derecelendirme içi kontrol: Yalnızca bir uzmanınız varsa bir hafta sonra verilerin rastgele seçilen% 10'unu uzmanınıza tekrar etiketletin. Geçmişteki kendileriyle aynı fikirde değillerse puan anahtarınız tutarlı değildir.

Uzmanın PASS ve FAIL etiketini ve ayrıntılı gerekçesini içeren, uzman tarafından etiketlenmiş bir veri kümesi girişinin JSON snippet'ini burada bulabilirsiniz:

{
  "id": "sample-001",
  "userInput": {
    "companyName": "Kinetica",
    // Company description, audience and tone
  },
  "appOutput": {
    "motto": "Unlock your kinetic potential.",
    // ... Color palette
  },
  "humanEvaluation": {
    "mottoBrandFit": {
      "label": "PASS",
      "rationale": "This motto powerfully aligns the brand's technical
        engineering with the ambitious goals of its elite athletic audience.
        Relevance: Leverages 'kinetic' to expertly link the brand to physical
        energy. Audience appeal: 'Unlock your potential' resonates perfectly
        with competitive runners. Tone consistency: Nails the required
        aggressive, high-performance marks."
    },
    // ... Human evals for colorBrandFit and mottoToxicity:
  }
}

Uzman görüş birliğine ulaşma ve bunu ölçme

Puanlama anahtarınız, modelin talimatları olarak kullanılır. Bu nedenle, puanlama anahtarınızı iyileştirmek için zaman ayırmanız önemlidir. Bir tasarımcı "eğlenceli" kelimesini "yaratıcı dil" olarak tanımlarken bir diğeri "parlak renkler" olarak yorumlarsa LLM'niz de çelişkiye düşer. Puanlama anahtarınızı hakiminize iletmeden önce bu belirsizlikleri ortadan kaldırmak için puanlama anahtarınızı zorlaştırmanız gerekir. Etiketleyiciler arası güvenilirlik veya değerlendiriciler arası anlaşma olarak da bilinen yüksek anlaşma, değerlendirici modelinizin güvenilir ve yüksek kaliteli etiketler sağlamasını sağlar.

İnsanların anlaşmazlıkları, puanlama değerlendirme ölçütünüzün hangi bölümlerinde daha fazla çalışmanız gerektiğini gösteren faydalı sinyallerdir. Uzmanlarınız PASS ve FAIL durumlarının ne olduğu konusunda hemfikir olana kadar bu süreci tekrarlayın.

Değerlendiriciniz, onu oluşturan insanlardan daha uyumlu olamaz.

Temel sözleşme

İnsanlar arasındaki anlaşmayı ölçmek için kullanılan bir yöntem (temel hakemlikteki insan hakem anlaşma puanımızda da kullandığımız) uzmanlarımızın ne sıklıkta aynı fikirde olduğunun yüzdesidir.

// total = all test cases
// aligned = test cases where human1Eval.label === human2Eval.label
// (for example PASS and PASS)
const alignment = (aligned / total) * 100;

Şansın ötesinde bir anlaşma: Kappa

Temel yüzde anlaşması basittir ancak yanıltıcı olabilir. Yarı PASS ve yarı FAIL olan bir veri kümesi düşünün. İki uzman yazı tura atarsa şans eseri% 50 oranında aynı sonucu elde eder. Buna şans tabanı denir.

Anlaşmayı doğru bir şekilde hesaplamak için bunun yerine güvenilirliği tamamen şansın ötesinde ölçen istatistiksel metrikler kullanın:

  • İki etiketleyici için Cohen's Kappa.
  • Üç veya daha fazla etiketleyici için Fleiss' Kappa.

  • Test: Önemli düzeyde anlaşma için standart olan en az 0.61 Kappa puanı hedefleyin. 0 puanı, rastgele tahminden daha iyi olmadığı anlamına gelirken 1.0 puanı mükemmel uyum anlamına gelir.

  • Düzeltme: Kappa puanınız 0.61 değerinden düşükse değerlendirme ölçeğiniz çok belirsizdir. Uzmanlarınızın farklı görüşte olduğu örnekleri gruplandırın, gerekçelerini inceleyin, puanlama anahtarını bu belirli uç durumları kapsayacak şekilde güncelleyin ve 0.61'ya ulaşana kadar tekrarlayın. Yalnızca uzmanlarınız uyum sağladıktan sonra bir sonraki adıma geçin.

Kappa puanı İşlem
0.60'dan az: Kötü Tekrar edin ve uzmanların neden farklı şeyler gördüğünü öğrenin. Puan anahtarınız çok genel olabilir. Bu nedenle, puan anahtarınızı daha ayrıntılı hale getirin.
0.610.80: İyi Temel performansınız güvenilirdir. Bu değerlendirme ölçeğiyle devam edin.
0.81-1.00 Neredeyse kusursuz Gerçek olamayacak kadar iyi. Görevin çok kolay olup olmadığını veya uzmanların basitleştirme yapıp yapmadığını kontrol edin.

Uzman etiketlerinizi daraltma

Verilerinizi etiketlemek için üç veya daha fazla uzman kullandıysanız oylarını her örnek için tek bir çoğunluk derecelendirmesinde birleştirin. Bu liste, temel doğrunuz haline gelir.

Hakemi yapılandırma

Temel yargıç için yaptığınız gibi, model parametrelerinizi yapılandırmanız ve isteminizi yazmanız gerekir. Sistem talimatlarınızı katı bir uzman kişiliğe ayarlayın ve tutarlılığı en üst düzeye çıkarmak için sıcaklığı 0 olarak tutun. İsteminizde, uzmanların verileri notlandırmak için kullandığı puanlama ölçütlerini aynen belirtin. Hakime tam olarak nasıl akıl yürüteceğini göstermek için uzman tarafından etiketlenmiş örneklerinizden birkaçını az örnekli örnek olarak ekleyin.

Hakimi hizalama ve test etme

Uzmanlarınız kabul ettikten sonra, LLM hakeminin de aynı fikirde olup olmadığını görme zamanı gelir.

Temel kurulumumuzda, ham hizalamaya (doğruluk) baktık. Ancak bu sayı tek başına yanıltıcı olabilir. Test verilerinizin% 90'ının PASS olduğunu düşünün. Tembel bir hakem, her seferinde PASS çıkışı yapabilir ve tek bir zararlı sloganı yakalamadan% 90 doğruluk puanı alabilir.

Pozitif sınıf tanımlama

Pozitif sınıfınızı tanımlayın. Pozitif sınıfınız (hedef koşul veya ilgilenilen etkinlik olarak da bilinir), algılamaya, ölçmeye veya işaretlemeye çalıştığınız belirli sonuçtur. Değerlendirme işlem hattınız bir kapı bekçisi gibi davranır: Asıl amacı, kötü çıktıları yakalayıp engellemektir.

ThemeBuilder'ın genellikle markaya uygun sloganlar ve paletler oluşturmada iyi olduğunu ve zehirli sloganların da nadir görüldüğünü varsayarsak tüm değerlendirme ölçütleriniz için olumlu sınıfınız FAIL olur.

Bu nedenle:

  • Yanlış pozitifler, iyi çıkışların yanlışlıkla FAIL olarak işaretlenmesidir.
  • Yanlış negatifler, FAIL olarak işaretlenmeyenlerdir.
  • Gerçek pozitifler doğru şekilde tanımlanan FAIL'lerdir.

Hassasiyet ve geri çağırma

Pozitif sınıfınızı göz önünde bulundurarak artık ham hizalamadan daha iyi metrikler olan kesinlik ve hatırlamayı kullanabilirsiniz:

  • Hassasiyet: LLM hakimi FAIL dediğinde kaç kez haklıydı? Örneğin: Hâkim bir motoyu zararlı olarak işaretlediğinde bu karar aslında ne sıklıkta doğruydu?
  • Hatırlama: İnsan FAIL dediğinde LLM ne sıklıkta bunu yakaladı? Örneğin: Gerçekten zararlı olan tüm çıkışlar ve gerçekten markaya uygun olmayan tüm sloganlar ve paletler arasından kaçını yargıç yakaladı?

Hataların maliyetini anlama + Hedef puanlar belirleme

Kendinize şu soruyu sorun: Hangi hata başvurunuz için daha kötü?

  • Toksiklik: Toksiklik bir güvenlik sorunudur. Hakemimiz bazen çok katı davranıp güvenli bir sloganı işaretlese bile her zararlı sloganı yakalamak (yanlış negatifleri en aza indirmek) istiyoruz. Güvenli bir sloganı işaretlemek (yanlış pozitif), küçük bir gecikmeye veya insan incelemesine neden olur. Bu nedenle % 100 hatırlama hedefliyoruz. Hassasiyet daha düşük olabilir.
  • Markaya uygunluk: Dengeye ihtiyacımız var. Hem kötü tasarımları kaçırmak hem de iyi tasarımları reddetmek eşit derecede maliyetlidir. Bu nedenle, hassasiyet ve geri çağırma değerlerinin yüksek olmasını isteriz.
Hassasiyet ve geri çağırma için desen tanıma
By Walber - CC BY-SA 4.0

F1 puanı

Geri çağırma arttığında hassasiyet genellikle düşer. Yalnızca hatırlama ile ilgilendiğiniz için toksisite açısından bu bir sorun değildir.

Markaya uygunluk için hem geri çağırma hem de hassasiyet önemlidir. Bu önemi dengelemek için yeni bir metrik kullanabilirsiniz: F1. F1 puanınız, hassasiyet ve geri çağırmayı tek bir dengeli metrikte birleştirir.

Erişim hizalama

Hakeminizi uzman tarafından etiketlenmiş veri kümesiyle karşılaştırın ve her bir kriteriniz için doğruluk, kesinlik, geri çağırma ve F1 puanlarını hesaplayın. Hedeflerinize ulaşıp ulaşmadığınızı değerlendirin.

Aksi takdirde, başarısızlık durumlarını gruplandırın ve LLM'nin gerekçelerini okuyun. Metrikler hedeflerinize ulaşana kadar boşlukları kapatmak için hakemin sistem talimatlarını ve puan anahtarını güncelleyin.

Hakeminiz hedeflerinize ulaştığında hakeminizle uyumlu hale gelirsiniz.

Son doğrulama

Şimdi, temel hakem kurulumunda ele aldığımız adımların aynısını kullanarak hakemimizi doğruluyoruz ancak yeni gelişmiş metriklerinizi uyguluyoruz:

  • Bootstrap ile stres testi: Veri kümenizi 10 yineleme boyunca değiştirerek rastgele yeniden örnekleyin. Yüksek puanlarınızın sadece şans olmadığını matematiksel olarak kanıtlamak için bu denemelerdeki hassasiyet, geri çağırma ve F1 puanlarınızın varyansını hesaplayın.
  • Kendisiyle tutarlılığı test etme: Kararlarının% 100 tutarlı olduğundan emin olmak için yargıçta aynı girişleri birden çok kez çalıştırın. Tüm yinelemelerde sıfır varyans istiyoruz.
  • Hakime son bir sınav yapın: Hakimi, daha önce hiç görmediği 15-20 yeni, uzmanlar tarafından etiketlenmiş örnekten oluşan bir test kümesiyle test edin. Bu gizli sette Cohen's Kappa, hassasiyet, geri çağırma ve F1 puanlarını hesaplayın. Bu metrikler birbirine yakın kalırsa hakeminizin uyum verilerinize aşırı uyum sağlamadığı ve gerçek dünyada genellemeye hazır olduğu kanıtlanır.

Hakimi yeniden hizalama

İşlemi tamamladığınızda tebrikler! Son derece güvenilir bir değerlendirme ardışık düzeni oluşturmuş olmanız gerekir.

Temel LLM'yi güncellediğinizde veya uygulamanızın özellik grubu temel olarak değiştiğinde hakiminizi yeniden hizalamayı unutmayın.