Son zamanların en popüler ama bir o kadar da ben bununla ne yapacağım ya hissi uyandıran Andrej Karpathy'nin "autoresearch" reposunu görmüşsünüzdür görmediyseniz https://github.com/karpathy/autoresearch Ben bu fikri alıp somut bir şeye uyguladım: OpenClaw hafıza sistemimin retrieval parametrelerini ayarlamaya. Sistemin adı Mahmory (Mahmut + Memory= Mahmory) ve işe yaradı.
Mahmory recall işini hallediyor, agent'ınıza "geçen hafta şu restoran hakkında ne demiştim?" diye sorduğunuzda, konuşma geçmişini tarayıp doğru context'i bulması gerekiyor. Bunu ne kadar iyi yaptığını etkileyen bir sürü parametre var: semantic benzerliğe mi yoksa keyword eşleşmesine mi daha çok ağırlık verecek, eski mesajların relevance'ı ne kadar hızlı düşecek, anlatı tarzı hafızaları boost'layacak mı, vs.
Bunları deneme yanılma ile ayarlıyordum. Autoresearch'ü entegre ettim.
A/B test gibi düşünün, ama 100 varyasyonun arka arkaya koştuğu ve arada hiç insan olmayan bir versiyonu.
Sisteme dedim ki:
• İşte 12 tane ayar, her birinin alt ve üst sınırı bu
• Rastgele 100 farklı kombinasyon dene
• Her birini aynı test sorularına karşı koş
• "Doğru hatırayı bulabildi mi?" diye skorla
• Çok yavaş olanları direkt ele
• En iyisini şampiyon ilan et
Hepsi bu. Fantezi algoritma yok. Düz rastgele arama. Kulağa basit geliyor ama 12 ayar için şaşırtıcı iyi çalışıyor.
Nasıl çalışıyor?
İki turda yapıyor: önce 7 ana ayarı optimize ediyor, sonra kazananı sabitleyip 5 ayar daha ekliyor. Toplam 12 ayar, ama arama alanı kontrol altında kalıyor.
Ne oldu?
• 29 dakikada 100 farklı kombinasyon denendi
• 18 tanesi "çok yavaş" diye direkt elendi
• Sadece 4 tanesi mevcut en iyiyi geçebildi
• Haftalarca elle uğraştığım ayarların sonuçlarını %1 geliştirdi
%1 az gibi mi? Haftalarca elle deneyerek bulduğum en iyi değeri, 29 dakikada, ben kahve yaparken geçti. Elle denemede asla bulamayacağım bir şeyi de ortaya çıkardı: sistem, düşündüğümden çok daha eski mesajları hatırlamaktan fayda görüyor. Bu tür insight'ları spreadsheet'e bakarak yakalayamazsınız.
Başka nerede kullanılır?
Ayarlanacak değerlerin ve "iyi mi kötü mü?" diye ölçecek bir metriğin olduğu her yerde:
• Tweet yazım tarzı: hangi ton, uzunluk, konu karışımı daha çok etkileşim alıyor?
• Agent routing: hangi mesaj hangi skille gidecek?
• Prompt ayarları: system prompt'un hangi versiyonu daha iyi cevap veriyor?
Pattern hep aynı: değerleri tanımla, skoru tanımla, makinenin yüzlerce kombinasyonu denemesine izin ver.
Not: 100 deney her zaman en iyi sonucu bulmaz. Ama alt-tab yaparak elle ayarladığınızı kesinlikle yener. Ve günler yerine dakikalar sürer.