Mühendislik16 dk5 Ocak 2026

Kurumsal Yapay Zeka Ajanları için İnsan Denetimi Tasarım Kalıpları: Otonomi ile Gözetim Arasında Denge

Mimari kararlar ve doğru otonomi seviyesini seçmek için karar matrisi ile dört üretimde test edilmiş kalıp

Jonas Richter

Baş Ajan Mühendisi, Korvus Labs

TL;DR

Çoğu kurumsal yapay zeka ajanı, beş seviyeli bir spektrumda otonomi seviyesi 3-4'te çalışmalıdır — yapılandırılmış gözetimle otonom yürütme, tam otopilot değil.
Güvene dayalı yükseltme en çok yönlü kalıptır: ajanlar kendi kesinliklerini puanlar ve düşük güvenli kararları insanlara yönlendirir, uç durumları yakalarken %85-92 otomasyon oranı elde eder.
Ekiplerin yaptığı en büyük hata, lansmanda ajanları aşırı kısıtlamak ve koruma bariyerlerini hiç gevşetmemektir — veri toplamakla başlayın, ardından gerçek üretim metriklerine göre eşikleri kalibre edin.
Kalıp seçimi üç faktöre bağlıdır: karar risk seviyesi, hacim ve düzenleyici kısıtlamalar. Finansal hizmetler onay iş akışları gerektirir; müşteri desteği güvene dayalı yükseltme; üretim denetim gösterge panelleri gerektirir.

Otonomi Spektrumu: Tam Manüelden Tam Otonom'a

İnsan denetimli yapay zeka ajanları hakkındaki her konuşma sonunda aynı soruya takılır: ajan ne kadar otonomiye sahip olmalı? Çok az olursa pahalı bir otomatik tamamlama oluşturmuş olursunuz. Çok fazla olursa CEO'nun masasına ulaşacak bir uyumluluk olayından tek bir halüsinasyon uzaklıktasınız.

Cevap ikili değildir. Her kurumsal müşteriyle otonomi konuşmasını somut terimlerle çerçevelemek için kullandığımız beş seviyeli bir spektrumda yaşar.

Seviye 1: Yapay Zeka Destekli Sadece İnsan. İnsan her kararı alır. Ajan öneriler, taslaklar veya analiz sağlar ancak hiçbir eylem gerçekleştirmez. Yapay zeka tarafından oluşturulan yanıt önerileri gören ancak her yanıtı manuel olarak yazan bir destek temsilcisini düşünün. Otomasyon oranı: fiilen %0. Kullanım alanı: ilk dağıtım aşaması veya her kararın maddi hukuki risk taşıdığı alanlar.

Seviye 2: Yapay Zeka Önerir, İnsan Seçer. Ajan muhakemeyle 2-3 seçenek önerir. İnsan birini seçer veya değiştirir. Ajan seçilen seçeneği yürütür. Bu, çoğu "yardımcı pilot" ürününün arkasındaki kalıptır. Otomasyon oranı: insan çabasında %20-40 tasarruf. Kullanım alanı: insan yargısının vazgeçilmez olduğu ancak hazırlığın zaman alıcı olduğu karmaşık karar alma.

Seviye 3: Yapay Zeka Ön Onaylı Yürütür. Ajan tam bir eylem planı hazırlar ve insan onayından sonra yürütür. İnsan bir özeti inceler ve onayla veya reddet tıklar. Tanımlı bir SLA içinde onay olmaması yükseltmeyi tetikler. Otomasyon oranı: %60-75. Kullanım alanı: finansal işlemler, sözleşme değişiklikleri, müşteri veri değişiklikleri — geri dönüşü zor maddi sonuçları olan her şey.

Seviye 4: Yapay Zeka Sonradan Gözetimle Yürütür. Ajan gerçek zamanlı otonom olarak hareket eder. İnsanlar gösterge panelleri ve denetim günlükleri aracılığıyla kararların bir örneğini sonradan inceler. Anomaliler uyarıları tetikler. Otomasyon oranı: %85-95. Kullanım alanı: ön onayın kabul edilemez gecikme yaratacağı yüksek hacimli, zaman duyarlı operasyonlar — Tier-1 destek, fatura sınıflandırması, rutin veri işleme.

Seviye 5: Tam Otonom. Ajan insan gözetimi olmadan çalışır. İnceleme yok, gösterge paneli yok, felaket boyutunda bir şey kırılmadıkça uyarı yok. Otomasyon oranı: %99+. Kullanım alanı: bugün kurumsal ortamda neredeyse hiçbiri. Gördüğümüz en olgun dağıtımlar bile en azından Seviye 4 gözetimini sürdürür.

30'dan fazla kurumsal ortamda ajan dağıtmanın kritik içgörüsü şudur: çoğu üretim ajanı Seviye 3 veya Seviye 4'te çalışmalıdır. Yüksek riskli, düşük hacimli kararlar için Seviye 3. Yüksek hacimli, düşük riskli operasyonlar için Seviye 4. Belirli seviye kalıcı bir mimari karar değildir — birikmiş güven verilerine göre çevirdiğiniz bir kadrandır. Müşterilerimizin çoğu Seviye 2'de başlar ve ölçülen performans sayesinde güven oluşturdukça 8-12 hafta içinde Seviye 4'e ilerler.

AB Yapay Zeka Yasası bu gradyanı pekiştirir. Yasa kapsamındaki yüksek riskli yapay zeka sistemleri "gerçek kişiler tarafından etkili gözetim" gerektirir — bu, belgelenmiş izleme prosedürleriyle Seviye 3-4'e doğrudan eşlenir. Seviye 5 otonomi, herhangi bir yüksek risk sınıflandırması için fiilen uyumsuz kabul edilir. Ajanınızın bu spektrumda nerede durduğunu anlamak, takip eden her mimari karar için temeldir.

Kalıp 1: Güvene Dayalı Yükseltme

Güvene dayalı yükseltme, kurumsal yapay zeka ajanlarının ana çalışma kalıbıdır. Kavram basittir: ajan her karar için kendi güvenini puanlar ve düşük güvenli kararları insan inceleyiciye yönlendirirken yüksek güvenli kararları otonom olarak yürütür. Pratikte bunu iyi uygulamak, işin %40'ını otomatikleştiren bir ajan ile %90'ını otomatikleştiren bir ajan arasındaki farktır.

Mimari dört bileşenden oluşur. Birincisi, her ajan kararını 0-1 ölçeğinde değerlendiren bir güven puanlama modülü. İkincisi, güven puanlarını eylemlere eşleyen bir eşik motoru: üst eşiğin üzerinde otomatik yürütme, alt eşiğin altında yükseltme ve orta bantta ek doğrulama kontrolleri uygulama. Üçüncüsü, önceliklendirme, SLA takibi ve bağlam sunumuyla bir insan inceleme kuyruğu. Dördüncüsü, güven puanlamasını zaman içinde yeniden kalibre etmek için insan inceleme sonuçlarını kullanan bir geri bildirim döngüsü.

Güven puanı tek bir sayı değildir — bir bileşiktir. Müşteri destek ajanı için tipik olarak dört sinyali birleştiriyoruz: gelen sorgu ile bilinen çözüm kalıpları arasındaki anlamsal benzerlik (ağırlık %30), LLM yanıtının logprob analizinden türetilen model çıktı olasılığı (ağırlık %25), ajanın müşteriyi, ürünü ve sorun türünü doğru tanımlayıp tanımlamadığını gösteren varlık çıkarım güveni (ağırlık %25) ve önerilen eylemin iş kurallarını ihlal etmediğini onaylayan politika uyumluluk kontrolü (ağırlık %20).

Eşik kalibrasyonu belirli bir protokol izler. Dağıtımın ilk iki haftasında, otomatik yürütme eşiğini kararların yalnızca %10-20'sinin otomatikleştirildiği kadar yüksek tutarız. Her karar — otomatik ve yükseltilmiş — insanlar tarafından incelenerek etiketli veri üretir. İki hafta sonunda, tipik olarak 2.000-5.000 etiketli karar biriktirmiş oluruz; bu, hassasiyet-geri çağırma eğrisi çizmeye ve müşterinin toleransının altında hata oranlarını tutarak otomasyonu maksimize eden optimal eşiği belirlemeye yeterlidir. Çoğu kurumsal dağıtım için ideal nokta 0,82-0,88 otomatik yürütme eşiği ve 0,55-0,65 yükseltme eşiğidir.

Orta bant — yükseltme ve otomatik yürütme arasında — gerçek mühendisliğin yapıldığı yerdir. Bu banttaki kararlar ikincil doğrulamadan geçer: ajan sorguyu ikinci bir model üzerinden çalıştırır, anlamsal tutarlılığı kontrol eder ve alana özgü kuralları uygular. İkincil doğrulama orijinal kararı onaylarsa devam eder. Onaylamazsa yükseltir. Bu orta bant tipik olarak tüm kararların %15-25'ini oluşturur ve dikkatli mühendislik yoluyla en fazla otomasyon yüzdesini geri kazandığınız yerdir.

Üretimde, iyi kalibre edilmiş güvene dayalı yükseltme sistemi, hata oranlarını yalnızca insan taban çizgilerine eşit veya altında tutarak %85-92 otomasyon oranları elde eder. Çalıştığımız bir finansal hizmetler müşterisi, güvene dayalı yükseltme ajanı aracılığıyla günde 12.000 müşteri sorgusu işlemektedir. Ajan sorguların %87'sini otomatik çözer, %9'unu tam bağlam yüklenmiş olarak insan temsilcilere yükseltir ve %4'ünü ikincil doğrulama bandına yönlendirir (bunların %70'i sonunda otomatik çözülür). İnsan temsilciler, yükseltilen vakaların önceki manuel önceliklendirme sistemlerinden daha iyi bağlamla geldiğini raporlamaktadır ve bu da ajanın tek başına çözemediği vakalarda bile ortalama ele alım süresini %35 azaltmaktadır.

Güvene dayalı yükseltme akışını gösteren mimari diyagramı: ajan güveni puanlar, 0,85 üzerinde otomatik yürütmeye, 0,60-0,85 arası ikincil doğrulamaya, 0,60 altında insan yükseltmesine yönlendirir

Kalıp 2: Yüksek Riskli Kararlar için Onay İş Akışları

Bazı kararlar güven puanından bağımsız olarak asla otomatik yürütülmemelidir. Eşiğin üzerindeki finansal işlemler, müşteri veri silmeleri, sözleşme taahhütleri ve düzenleyici bildirimler hepsi açık insan onayı gerektirir — ajanın iyi kararlar alamaması nedeniyle değil, kötü bir kararın sonuçlarının asimetrik olması nedeniyle. Destek biletindeki yanlış bir cevap size CSAT puanına mal olur. Yanlış bir finansal taahhüt size gerçek para ve muhtemelen yasal sorumluluk mal olur.

Onay iş akışı kalıbı, ajanın hazırlığını ajanın yürütmesinden ayırır. Ajan işin %90'ını yapar — veri toplar, seçenekleri analiz eder, eylemi taslak haline getirir, iş kurallarına göre doğrular — ardından bir insana yapılandırılmış onay talebi sunar. İnsan özeti inceler ve onaylar, reddeder veya değiştirir. Ajan ardından onaylanan eylemi yürütür.

Mimari, bir asenkron onay kuyruğu etrafında merkezlenir. Ajan yüksek riskli bir kararla karşılaştığında, kuyruğa şunları içeren yapılandırılmış bir onay talebi yazar: düz dilde önerilen eylem, destekleyici kanıtlar ve veri kaynakları, risk değerlendirmesi, değerlendirilen alternatif seçenekler ve neden reddedildikleri ve muhakemesiyle birlikte önerilen onay veya ret. İnsan inceleyici bunu gösterge panelinde bir kart olarak görür — ham bir sohbet transkripti değil, yapılandırılmış bir karar brifing'i.

SLA tabanlı otomatik yükseltme onay kuyruğunun darboğaz olmasını önler. Her onay talebi, aciliyet ve risk seviyesine bağlı olarak tipik olarak 15-60 dakikalık bir SLA taşır. Birincil onaylayan SLA içinde hareket etmezse, talep ikincil onaylayana yükseltilir. İkisi de hareket etmezse, gecikme etkisinin özetiyle birlikte bir yöneticiye yükseltilir. Dağıtımlarımızda bu üç kademeli yükseltme modeli, standart talepler için ortanca onay gecikmesini 8 dakikanın, acil olanlar için 3 dakikanın altında tutar.

Toplu onay hacimli olarak gelen orta riskli kararlar için bir verimlilik kalıbıdır. Bireysel onaylar yerine, ajan benzer kararları gruplayarak toplu olarak sunar: "Toplam 3.847 avroluk 12 iade talebi, tamamı politika parametreleri dahilinde. Tümünü onayla / Ayrı ayrı incele." Bu kalıp, karar kalitesini düşürmeden onaylayan verimini saat başına 15-20 bireysel onaydan 80-120 eşdeğer karara çıkarır.

Pratikte büyük önem taşıyan bir uygulama inceliği: ajan yalnızca seçenekleri değil, önerisini sunmalıdır. Nötr seçenekler sunan ("Seçenek A, Seçenek B, Seçenek C — birini seçin") onay iş akışları karar yorgunluğu yaratır ve onaylayanları yavaşlatır. Muhakemeyle birlikte öneri sunan ("Önerilen: X, Y, Z nedenlerinden dolayı Seçenek B. Onayla?") iş akışları, son kararda insan yargısını korurken ajanın analizinden yararlanır. Verilerimiz, öneri öncelikli onay arayüzlerinin seçenek listesi arayüzlerine kıyasla ortanca onay süresini %62 azalttığını göstermektedir.

Finansal hizmetler müşterileri için düzenleyici onay gereksinimlerini iş akışına katman olarak ekliyoruz. AB Yapay Zeka Yasası, yüksek riskli otomatik kararların karar mantığının bir açıklamasını içermesini gerektirir. Bu açıklamayı onay talebinin kendisine dahil ederek, onay iş akışı aynı anda düzenleyici gereksinimleri karşılar ve insan inceleyicilerin daha iyi kararlar almasına yardımcı olur. Onay günlüğü — insan kararı ve yapılan değişiklikler dahil — uyumluluk ekiplerinin ihtiyaç duyduğu denetim izi haline gelir.

Çalıştığımız bir Avrupa ödeme işlemcisi, günde yaklaşık 450 yüksek değerli işlem incelemesini onay iş akışı ajanı aracılığıyla yönlendirmektedir. Ajan, her incelemeyi dolandırıcılık risk analizi, müşteri geçmişi ve düzenleyici kontrollerle hazırlar. Onay görevlileri bu incelemeleri her biri ortalama 4,2 dakikada işler — önceki manuel süreçteki 18 dakikadan düşüş. Yanlış pozitif oranları %12'den %3,8'e düştü çünkü ajanın yapılandırılmış analizi, insan inceleyicilerin daha önce hızlı manuel inceleme sırasında kaçırdığı kalıpları yakalar.

Kalıp 3: Sürekli İzleme için Denetim Gösterge Panelleri

Onay iş akışları ayrık, yüksek riskli kararlar için çalışır. Peki ya sürekli çalışan — belgeleri işleyen, sistemleri izleyen, kuyrukları yöneten — hacmin karar başına onayı imkansız kıldığı ajanlar? İşte burada denetim gösterge panelleri devreye girer: her eylemi onaylamalarını gerektirmeden insanlara otonom ajan operasyonlarına görünürlük veren gerçek zamanlı izleme arayüzleri.

Denetim gösterge paneli, günlük güncellenen grafiklere sahip bir iş zekası gösterge paneli değildir. Dakika altı veri tazeliği, anomali tespiti ve doğrudan müdahale kontrolleriyle operasyonel bir kontrol panelidir. Hava trafik kontrolü gibi düşünün, üç aylık iş incelemesi değil.

Gösterge paneli mimarisi üç katmandan oluşur. Etkinlik akışı gerçek zamanlı ajan eylemlerini gösterir: ajanın ne yaptığını, hangi sistemlerle etkileşim kurduğunu ve her eylemin sonuçlarını. Bu ham bir günlük değildir — ilgili eylemleri gruplayan ve dikkat çekici kararları öne çıkaran anlamsal olarak özetlenmiş bir akıştır. Bir denetmen, bireysel işlemler yerine özetleri okuyarak saat başına 200+ ajan eylemini tarayabilir.

Anomali tespit katmanı ajan davranışı üzerinde istatistiksel modeller çalıştırır ve sapmaları işaretler. Bunlar şunları içerir: çıktı dağılım kaymaları (ajan tarihsel oranın %8 olduğu yerde aniden faturaların %40'ını tartışmalı olarak sınıflandırıyor), gecikme artışları (ajan talepleri işlemek için 3 kat daha uzun sürüyor, üst akış sistem sorunlarını düşündürüyor), hata oranı değişiklikleri (ajanın yeniden deneme sayısı son saatte ikiye katlandı) ve güven puanı kayması (ortalama güven puanı 15 puan düştü, girdi dağılımının değiştiğini düşündürüyor). Her anomali, önem sınıflandırması ve önerilen eylemle görsel bir uyarıyı tetikler.

Müdahale kontrolleri denetmenlerin gördüklerine göre harekete geçmesine olanak tanır. Minimum: ajanı duraklat (tüm otonom eylemleri hemen durdur), kapsamı kısıtla (diğerlerini aktif tutarken belirli yetenekleri devre dışı bırak), belirli bir kararı geçersiz kıl (ajanın aldığı bir eylemi tersine çevir ve alternatifini yürüt) ve eşikleri ayarla (güven eşiklerini gerçek zamanlı olarak sıkılaştır veya gevşet). Bu kontrollerin anında çalışması gerekir — bir sonraki dağıtım döngüsü için kuyruğa alınmış değil. Üretimde, müdahale kontrollerini etkinleştirmeden 30 saniye içinde etkili olan özellik bayrakları olarak uyguluyoruz.

Zor yoldan öğrendiğimiz bir mimari karar: gösterge paneli ajanın altyapısından bağımsız olmalıdır. Ajanın sistemleri sorun yaşıyorsa — gösterge panosuna en çok ihtiyaç duyduğunuz senaryo — gösterge paneli yine de çalışmalıdır. Denetim gösterge panellerini, ajanın sistemlerini doğrudan sorgulamak yerine ajanın durumunu yansıtan bağımsız veri hatlarıyla ayrı altyapıda dağıtıyoruz.

Kalite denetim ajanları çalıştıran üretim müşterilerimiz için denetim gösterge paneli birincil gözetim mekanizmasıdır. Ajan vardiya başına 2.000-5.000 öğeyi otonom olarak denetler. Kalite denetmeni, anomali uyarılarını izleyerek ve denetim kararlarının istatistiksel olarak örneklenmiş bir alt kümesini inceleyerek gösterge paneli üzerinden izler. Anomali tespiti bir kalıp işaretlerse — diyelim ki kamera kalibrasyon sorununu gösterebilecek olağandışı bir hata sınıflandırma dağılımı — denetmen ajanı duraklatabilir, araştırabilir ve kök neden ele alındığında devam ettirebilir. Bu kalıp, AB Yapay Zeka Yasası yönetişim gereksinimleri talep ettiği gözetimi sağlarken otonom operasyonun verim avantajlarını korur.

Gerçek zamanlı ajan etkinlik akışı, anomali tespit uyarıları ve ajanı duraklatma, kısıtlama ve geçersiz kılma müdahale kontrollerini gösteren denetim gösterge paneli tel çerçeve tasarımı

Kalıp 4: Zarif Bozulma — Ajan Ne Zaman Durmalı

İlk üç kalıp, ajanların normal koşullar altında nasıl çalıştığını ele alır. Kalıp 4, üretim seviyesindeki ajanları demolardan ayıran senaryoyu ele alır: bir şeyler ters gittiğinde ne olur. Ajanın model sağlayıcısında bir kesinti yaşanır. Üst akış API bozuk veri döndürür. Girdi dağılımı güven puanlarının anlamsız olacağı kadar kaymıştır. Ajan, eğitim dağılımının tamamen dışında kalan yeni bir durumla karşılaşır.

Zarif bozulma, bir ajanın otonomi seviyesini düşürmesi veya tamamen çalışmayı durdurması gereken koşulları önceden tanımlama — ve bunu veri kaybı, kademeli başarısızlıklar veya sessiz hatalar olmadan yapmasını sağlama disiplinidir.

Devre kesiciler ilk mekanizmadır. Mikro hizmet mimarisinden ödünç alınan devre kesiciler, ajan hata oranlarını izler ve eşikler aşıldığında tetiklenir. Üç devre kesici seviyesi uyguluyoruz. Sarı: hata oranı 10 dakikalık pencerede %5'i aşar. Ajan çalışmaya devam eder ancak Seviye 4'ten Seviye 3 otonomiye geçer — tüm kararlar artık onay gerektirir. Turuncu: hata oranı %15'i aşar veya ardışık üç kritik hata oluşur. Ajan yeni çalışmayı duraklatır, devam eden görevleri insan gözetiminde tamamlar ve operasyon ekibini uyarır. Kırmızı: hata oranı %30'u aşar veya tek bir felaket hatası (veri bozulması, yetkisiz sistem erişimi, uyumluluk ihlali). Ajan hemen durur, soruşturma için durumu korur ve manuel sürece geri döner.

Hata bütçeleri daha uzun ufuklu bir mekanizma sağlar. SRE hata bütçelerine benzer şekilde, bir ajan hata bütçesi genellikle 30 gün olmak üzere bir yuvarlanan dönem üzerinde kabul edilebilir kümülatif hata oranını tanımlar. Ajanın son 30 güne ait hata oranı bütçeyi (%2-5 arası, alana bağlı olarak yaygın şekilde belirlenir) aşarsa, performans toparlanana kadar otonomi seviyesi otomatik olarak düşürülür. Bu, bir ajanın doğruluğunun devre kesicilerin hiçbir zaman tetiklenmeyeceği kadar kademeli olarak bozulduğu ancak kümülatif etkinin önemli olduğu yavaş kayma senaryosunu önler.

Geri dönüş prosedürleri ajan durduğunda ne olacağını tanımlar. Bu, çoğu ekibin atladığı ayrıntıdır ve bir devre kesici tetiklemesinin küçük bir operasyonel olay mı yoksa bir kriz mi olduğunu belirleyen ayrıntıdır. Dağıttığımız her ajan için şunları belgeliyoruz: ajanın değiştirdiği manuel süreç (kim ne yapar, hangi sırayla), devir protokolü (devam eden iş ajandan insana nasıl aktarılır), veri koruma gereksinimleri (hangi durumun kaydedilmesi gerekir ve nerede) ve yeniden başlatma kriterleri (ajanın devam etmesi için hangi koşulların karşılanması gerekir). Bu prosedürler üç ayda bir test edilir — sadece belgelenmez.

Sınır tanımı reaktif devre kesicilerin proaktif tamamlayıcısıdır. Ajanın başarısız olmasını beklemek yerine, yeteneğinin sınırlarını açıkça tanımlar ve bir talebin bu sınırların dışında kaldığını tanıması için programlarız. Bu, girdi sınıflandırması (bu talep türü ajanın eğitim dağılımında mı?), karmaşıklık puanlaması (bu talep ajanın sahip olmadığı yetenekleri mi gerektiriyor?) ve paydaş tanımlama (bu talep ajanın güveninden bağımsız olarak insan müdahalesi gerektiren bir VIP müşteri, yüksek değerli hesap veya hassas konu mu içeriyor?) kombinasyonunu kullanır.

Yönettiğimiz en olgun dağıtım — günde 8.000 etkileşim gerçekleştiren bir fintech şirketi için müşteri operasyonları ajanı — 12 aylık operasyonda sarı devre kesicisini 7 kez, turuncu devre kesicisini iki kez (her ikisi de ajan hataları değil, üst akış API sorunları nedeniyle) ve kırmızı devre kesicisini sıfır kez tetiklemiştir. Her sarı tetikleme 30 dakika içinde çözülmüştür. İki turuncu tetikleme 2 saat içinde çözülmüştür. Hiçbir noktada manuel işleme geri dönüş, son kullanıcılara görünür hizmet bozulmasına neden olmamıştır. Zarif bozulma pratikte şöyle görünür: sorunların yokluğu değil, hizmet sürekliliğini koruyan sistematik, önceden planlanmış sorunlara yanıt.

Etkinliği Öldürmeden Koruma Bariyerlerini Tanımlama

İnsan denetimi tasarımındaki en yaygın başarısızlık modu çok az koruma bariyeri değildir — çok fazlasıdır. Ajanın onay gereksinimleri, doğrulama kontrolleri ve kapsam sınırlamalarıyla o kadar kısıtlandığı kurumsal dağıtımlar gördük ki hedef iş akışının %15'inden azını otomatikleştirdi. Bu noktada, mevcut süreçleri hızlandırmak yerine yavaşlatan bir sistem oluşturmak için 200.000 avro harcamış olursunuz.

Koruma bariyeri kalibrasyon sorunu, kurumsal risk kaçınmasının tanıdık olmayan teknolojiyle buluşmasının bir tezahürüdür. Paydaşlar ajana güvenmediğinde — lansmanda varsayılan durum budur — kısıtlamalar eklerler. Her kısıtlama tek başına küçük ve makul hissedilir. Toplam olarak ajanın değer sunma yeteneğini boğarlar.

Koruma bariyeri kalibrasyonu için çerçevemiz, "Sıkı başla, her şeyi ölç, veriye göre gevşet" adını verdiğimiz bir ilkeyi izler. İşte pratikte nasıl çalıştığı.

Faz 1: Gölge Modu (Hafta 1-2). Ajan her talebi işler ancak hiçbir eylem gerçekleştirmez. Kaydedilen ve insanların gerçekte ne yaptığıyla karşılaştırılan önerilen eylemler üretir. Bu aşama iki kritik veri seti üretir: ajanın insan kararlarına göre doğruluk oranı ve karar türleri ve karmaşıklık seviyelerinin dağılımı.

Faz 2: Seçici Otonomi (Hafta 3-4). Faz 1 verilerine dayanarak, ajanın doğruluğunun %95'i aştığı ve hata sonuçlarının geri dönüşümlü olduğu karar kategorilerini belirleyin. Yalnızca bu kategoriler için otonomuyi etkinleştirin. Tipik olarak bu toplam hacmin %30-40'ını kapsar — rutin, iyi tanımlanmış vakalar.

Faz 3: Genişletilmiş Otonomi (Hafta 5-8). Faz 2'deki yükseltilmiş vakaları inceleyin. Kısıtlanan her kategori için değerlendirin: yükseltilen vakalardaki hata oranı neydi? Oluşan hataların maliyeti neydi? İnsan incelemesinin maliyeti neydi? Beklenen hata maliyeti insan inceleme maliyetinden azsa, o kategoriye otonomiyi genişletin.

Faz 4: Sürekli Kalibrasyon (Devam Eden). Aylık bir koruma bariyeri inceleme temposu oluşturun. Otomasyon oranlarını, hata oranlarını ve maliyet metriklerini gözden geçirin. Eşikleri her iki yönde de ayarlayın — performansın garanti ettiği yerlerde gevşetin, yeni başarısızlık modlarının ortaya çıktığı yerlerde sıkılaştırın.

Bu çerçevedeki kritik metrik doğruluk değildir — inceleme maliyeti ile hata maliyetinin karşılaştırılmasıdır. Bir koruma bariyeri, önlediği hataların beklenen maliyeti gerektirdiği insan incelemesinin maliyetini aştığında haklı çıkar. Bir koruma bariyeri, önlediği hatalardan daha pahalıya mal oluyorsa kaldırılmalıdır.

Pratik bir örnek: bir lojistik müşteri başlangıçta tüm sevkiyat yeniden yönlendirme kararları için nedenden veya değerden bağımsız olarak insan onayı gerektirdi. Onay süreci her yeniden yönlendirmeye 45 dakika gecikme ekliyordu ve bu bazen kaçırılmış teslimat pencerelerine neden oluyordu. Dört haftalık verileri analiz ettikten sonra, yeniden yönlendirme kararlarının %78'inin %99,2 ajan doğruluk oranıyla hava durumu kaynaklı olduğunu ve yanlış yeniden yönlendirmenin ortalama maliyetinin (düzeltme için 35 avro) 45 dakikalık gecikmenin maliyetinden (SLA cezalarında 120 avro) çok daha düşük olduğunu bulduk. Hava durumu kaynaklı yeniden yönlendirmeler için onay gereksinimini kaldırdık, diğer kategoriler için koruduk ve ajanın etkin otomasyon oranı bir gecede %34'ten %71'e sıçradı.

İlk dağıtımlar için kullandığımız altı haftalık stratejik plan bu kalibrasyon sürecini uygulama zaman çizelgesine dahil ederek koruma bariyerlerinin organizasyonel kaygıya değil, ilk günden veriye dayalı olmasını sağlar.

Teknik Uygulama: Güven Puanlama ve Eşik Ayarı

Güven puanlama, Kalıp 1 ve 4'ün teknik temelidir. Kötü uygulanan bir güven puanlayıcı, ya aşırı güvenli (yükseltmesi gereken kararları otomatik yürüten) ya da düşük güvenli (her şeyi yükselterek otomasyon amacını boşa çıkaran) bir sistem oluşturur. Bunu doğru yapmak, birden fazla sinyal kaynağını birleştirmeyi ve bunları gerçek sonuçlara göre kalibre etmeyi gerektirir.

Logprob analizi LLM tabanlı ajanlar için en doğrudan sinyaldir. Çoğu büyük LLM sağlayıcısı, üretilen token'lar için log olasılıkları döndürür. Yanıt token'ları genelinde ortalama logprob, modelin kesinliğinin ham bir ölçüsünü sağlar. Ancak ham logprob'lar tek başına zayıf bir güven sinyalidir — modeller özellikle dağılım dışı girdilerde güvenle yanlış olabilir. Logprob'ları bileşik puanın %20-25'i ağırlıkla bir girdi olarak ve öncelikle bir filtre olarak kullanıyoruz: çok düşük ortalama logprob'lu yanıtlar (-2,5'in altı) neredeyse her zaman düşük kalitededir ve diğer sinyallerden bağımsız olarak yükseltilmelidir.

Çoklu model konsensüsü daha sağlam ancak daha pahalı bir yaklaşımdır. Aynı girdi 2-3 farklı model (veya farklı promptlarla aynı model) tarafından işlenir ve yanıtlar anlamsal benzerlik açısından karşılaştırılır. Bağımsız model çalıştırmaları arasındaki yüksek uyum, doğrulukla güçlü bir şekilde ilişkilidir. Uygulamalarımızda, birincil model (karmaşık muhakeme görevleri için tipik olarak Claude) ve ikincil model (maliyet verimliliği için tipik olarak GPT-4o-mini) kullanıyoruz ve gömme tabanlı kosinüs benzerliği kullanarak yanıt benzerliğini ölçüyoruz. 0,92 kosinüs benzerliğinin üzerindeki uyum güçlü bir pozitif sinyaldir; 0,75'in altındaki uyumsuzluk güçlü bir negatif sinyaldir. Bu yaklaşım karar başına LLM maliyetlerine %40-60 ekler ancak güven kalibrasyonunu önemli ölçüde iyileştirir — yüksek riskli alanlar için buna değer.

Alana özgü doğrulama kontrolleri deterministik oldukları için en güvenilir güven sinyalleridir. Ajanın çıktısını bilinen kısıtlamalara göre doğrulayan kural tabanlı kontrollerdir: önerilen eylem geçerli bir müşteri kimliğine atıfta bulunuyor mu? Parasal tutar politika limitleri dahilinde mi? Yanıt gerekli düzenleyici bildirimleri içeriyor mu? Atıfta bulunulan tüm ürünler aktif katalogda mı? Geçen her doğrulama kontrolü güven puanına ekler; her başarısızlık çıkarır. Ajan başına tipik olarak 10-20 alana özgü kontrol uyguluyoruz ve bunlar toplu olarak bileşik güven ağırlığının %35-40'ını taşır.

Erişim kalitesi puanlaması ajan RAG kullandığında geçerlidir. Erişilen bağlamın kalitesi — alaka puanı, güncellik ve kaynak otoritesiyle ölçülen — doğrudan yanıt kalitesini etkiler. En iyi erişilen belgeler düşük alaka puanlarına sahipse (normalleştirilmiş ölçekte 0,7'nin altı), ajan muhtemelen yetersiz bağlamla çalışıyordur ve güven buna göre cezalandırılmalıdır.

Eşik ayarı tek seferlik bir kurulum değil, devam eden bir süreçtir. İlk eşikler Faz 1 gölge modu verilerine göre muhafazakar olarak belirlenir. Bundan sonra eşikleri ayarlamak için Bayesian optimizasyon yaklaşımı kullanıyoruz: hedef fonksiyonu tanımlayın (hata oranı kısıtına tabi otomasyon oranını maksimize edin), ajanı mevcut eşiklerle bir ölçüm dönemi boyunca çalıştırın, etiketli sonuçları toplayın, Gauss süreç modeli kullanarak eşiği güncelleyin ve yineleyin. Pratikte bu, eşiklerin ilk üç ay boyunca her 2-4 haftada değiştiği ve ardından aylık veya üç aylık ayarlamalara istikrar kazandığı anlamına gelir.

Kritik bir uygulama ayrıntısı: güven puanları sadece hesaplanmamalı, kalibre de edilmelidir. 0,85'lik ham güven puanı, o puandaki kararların %85'inin gerçekten doğru olduğunu bilmediğiniz sürece anlamsızdır. Ham puanları gözlemlenen sonuçlara göre kalibre etmek için izotonik regresyon kullanıyoruz ve gerçek doğruluk oranlarını doğru şekilde yansıtan kalibre edilmiş olasılıklar üretiyoruz. Kalibrasyon, erken dağıtımda haftalık, kararlı durumda aylık olarak yeniden hesaplanır.

Karar Matrisi: Kullanım Alanınız için Doğru Kalıbı Seçme

Dört kalıp elinizde olduğunda pratik soru şudur: hangisini kullanırsınız? Cevap üç birincil faktöre — karar risk seviyesi, işlem hacmi ve düzenleyici kısıtlamalar — ve iki ikincil faktöre — gecikme gereksinimleri ve organizasyonun yapay zeka olgunluğu — bağlıdır.

Finansal Hizmetler: Kalıp 2 (Onay İş Akışları) + Kalıp 3 (Denetim Gösterge Panelleri). Finansal kararlar yüksek düzenleyici risk ve maddi finansal sonuçlar taşır. Düşük değerli, yüksek hacimli işlemler (ödeme işleme, rutin hesap güncellemeleri) Seviye 4 otonomiyle denetim gösterge panelleri üzerinden çalışır. Yüksek değerli işlemler, kredi kararları ve uyumluluğa duyarlı eylemler Seviye 3'te onay iş akışları üzerinden yönlendirilir. AB Yapay Zeka Yasası, kredi değerliliği değerlendirmesini yüksek riskli olarak sınıflandırır ve yapay zeka güdümlü kredi kararları için insan gözetimini zorunlu kılar. Finansal hizmetler müşterilerimiz tipik olarak bu çift kalıp yaklaşımıyla %70-80 genel otomasyon oranı elde eder.

Müşteri Desteği: Kalıp 1 (Güvene Dayalı Yükseltme) + Kalıp 4 (Zarif Bozulma). Destek operasyonları değişken karmaşıklıkta yüksek hacimlidir. Güvene dayalı yükseltme spektrumu doğal olarak ele alır: rutin sorgular otomatik çözülür, karmaşık sorgular yükseltilir. Zarif bozulma, model kesintilerine ve müşteri ilişkilerine zarar verebilecek uç durumlara karşı koruma sağlar. Müşteri operasyonları dağıtımları için, insan yönlendirmeli vakalar için 5 dakikanın altında yükseltme gecikmesiyle %75-85 otomasyon hedefliyoruz.

Üretim: Kalıp 3 (Denetim Gösterge Panelleri) + Kalıp 4 (Zarif Bozulma). Üretim ajanları — kalite denetimi, kestirimci bakım, tedarik zinciri optimizasyonu — hataların güvenlik sonuçları olan fiziksel ortamlarda çalışır. Denetim gösterge panelleri operasyon yöneticilerine sürekli görünürlük sağlar. Zarif bozulma, ekipman güvenliğinin ajan arızası nedeniyle asla tehlikeye atılmamasını sağlar. Burada vurgu anomali tespit hızı üzerinedir: üretim gösterge panelleri dakikalar değil, saniyeler içinde uyarı vermelidir.

SaaS Operasyonları: Kalıp 1 (Güvene Dayalı Yükseltme) + Kalıp 2 (Onay İş Akışları). SaaS onboarding ve müşteri kaybı önleme ajanları, rutin otomasyon (e-posta dizileri, yapılandırma görevleri) ile yüksek riskli eylemler (hesap değişiklikleri, sözleşme değişiklikleri) karışımını ele alır. Güvene dayalı yükseltme rutin işleri kapsar; onay iş akışları gelir etkisi olan eylemleri kontrol eder. Bu kombinasyon, SaaS şirketlerinin ihtiyaç duyduğu onboarding hızlandırmasını müşteriye yönelik taahhütler üzerinde kontrol sağlarken sunar.

Karar faktörleri kontrol listesi. Yukarıda listelenmemiş herhangi bir kullanım alanı için şu boyutlar üzerinden değerlendirin:

Karar başına risk seviyesi: Düşük risk Kalıp 1 veya 3'ü destekler. Yüksek risk Kalıp 2'yi destekler. Güvenlik kritik Kalıp 3 + 4'ü destekler.
Karar hacmi: Günde 100'ün altı — Kalıp 2 pratiktir. Günde 1.000'in üzeri — Kalıp 1 veya 3 gereklidir. Günde 10.000'in üzeri — agresif eşik ayarıyla Kalıp 1.
Gecikme toleransı: Kararlar saniye altı olmalıysa Kalıp 2 dışlanır. Önceden hesaplanmış güvenle Kalıp 1 en hızlısıdır.
Düzenleyici gereksinimler: AB Yapay Zeka Yasası yüksek risk sınıflandırması belgelenmiş insan gözetimini zorunlu kılar — tam denetim kaydıyla Kalıp 2 veya 3.
Organizasyonel yapay zeka olgunluğu: Düşük olgunluk — her yerde Kalıp 2 ile başlayın ve güven büyüdükçe Kalıp 1 veya 3'e geçin. Yüksek olgunluk — ilk günden kullanım alanı başına optimal kalıbı dağıtın.

Çoğu kurumsal dağıtım, aynı ajan içinde farklı karar türleri için 2-3 kalıbı eş zamanlı olarak kullanır. Ajan framework'ü, sistem seviyesinde değil karar seviyesinde kalıp değiştirmeyi desteklemelidir. Müşteriler için ajan sistemleri mimarisi kurarken, kalıp seçimi karar türü başına bir yapılandırma parametresidir ve aynı ajanın tek bir müşteri etkileşimi içinde rutin bir sınıflandırmayı güvene dayalı yükseltme üzerinden, finansal bir taahhüdü ise onay iş akışı üzerinden yönlendirmesine olanak tanır.

Bu kalıpların belirli kullanım alanınıza nasıl uygulanacağını değerlendiriyorsanız, tasarım incelemesi için mühendislik ekibimizle iletişime geçin. İlk üretim ajan dağıtımını planlayan kurumsal ekipler için ücretsiz 90 dakikalık mimari oturumu sunuyoruz.

Sik Sorulan Sorular

Etkili insan gözetimi, karar riski ve hacme eşleştirilmiş tasarım kalıplarının bir kombinasyonunu kullanır. Yüksek hacimli, düşük riskli kararlar için ajanın belirsiz kararları insanlara yönlendirdiği güvene dayalı yükseltme kullanın. Yüksek riskli kararlar için ajanın hazırladığı ancak insanların yürüttüğü onay iş akışları kullanın. Otonom operasyonların sürekli izlenmesi için üstüne denetim gösterge panelleri katmanı ekleyin.

Güvene dayalı yükseltme, yapay zeka ajanının her karar için bileşik sinyaller — logprob analizi, çoklu model konsensüsü ve alana özgü doğrulama kontrolleri — kullanarak kesinliğini puanladığı bir kalıptır. Güven eşiğinin üzerindeki kararlar otomatik yürütülür, altındakiler tam bağlamla insan inceleyicilere yönlendirilir. İyi kalibre edilmiş sistemler uç durumları yakalarken %85-92 otomasyon oranları elde eder.

Gölge modu aşamasında sıkı koruma bariyerleri ve kapsamlı veri toplamakla başlayın, ardından ölçülen doğruluk ve hata maliyeti verilerine göre kısıtlamaları sistematik olarak gevşetin. Temel metrik, bir karar kategorisi için insan inceleme maliyetinin o kategorideki ajan hatalarının beklenen maliyetini aşıp aşmadığıdır. Çoğu kurumsal ajan, yinelemeli kalibrasyonun 6-8 haftası içinde optimal otonomi seviyesine ulaşır.

Temel koruma bariyerleri şunlardır: güvene dayalı yükseltme eşikleri, hata oranları arttığında otonomuyi azaltan devre kesiciler, 30 günlük yuvarlanan dönemler üzerinde kümülatif doğruluğu izleyen hata bütçeleri ve kapsam dışı talepler için açık sınır tanımları. En önemli ilke, her koruma bariyerinin verilerle gerekçelendirilmesi gerektiğidir — uygulanma maliyeti önlediği hatalardan daha yüksek olan herhangi bir kısıtlamayı kaldırın.

Eşik ayarı, tüm kararların insanlar tarafından incelendiği iki haftalık gölge modu veri toplama ile başlar. Bu etiketli verileri hassasiyet-geri çağırma eğrileri çizmek ve optimal eşikleri belirlemek için kullanın. Üretimde, eşikleri her 2-4 haftada yinelemeli olarak ayarlamak için Bayesian optimizasyon uygulayın ve ham güven puanlarını gerçek doğruluk olasılıklarına kalibre etmek için izotonik regresyon kullanın.

Onemli Cikarimlar

1Paydaş tartışmalarını çerçevelemek ve yapay zeka ajanlarınız için somut dağıtım hedefleri belirlemek amacıyla beş seviyeli otonomi spektrumunu (yalnızca insan'dan tam otonom'a) kullanın.
2Güvene dayalı yükseltme, logprob'lar, çoklu model konsensüsü ve alana özgü doğrulama kontrolleri genelinde bileşik puanlama kullanılarak kalibre edildiğinde üretimde %85-92 otomasyon oranları elde eder.
3Onay iş akışları, nötr seçenek listeleri yerine muhakemesiyle birlikte ajan önerileri sunmalıdır — yüksek riskli kararlarda insan yargısını korurken ortanca onay süresini %62 azaltır.
4Denetim gösterge panelleri, gözetimin en kritik olduğu senaryolarda izleme kullanılabilirliğini sağlamak için ajandan bağımsız altyapıda dağıtılmalıdır.
5Üç önem seviyeli devre kesiciler (sarı, turuncu, kırmızı) ve belgelenmiş geri dönüş prosedürleri, ajan arızalarının hizmet kesintilerine dönüşmesini önler.
6İnceleme maliyeti ile hata maliyeti karşılaştırması çerçevesini kullanarak koruma bariyerlerini kalibre edin: işletme maliyeti önlediği hatalardan daha yüksek olan herhangi bir koruma bariyerini kaldırın.
7Çoğu kurumsal dağıtım karar seviyesinde yapılandırılmış 2-3 kalıbı eş zamanlı kullanır — aynı ajan rutin görevler için güvene dayalı yükseltme, yüksek riskli eylemler için onay iş akışları kullanabilir.

Jonas Richter

Baş Ajan Mühendisi, Korvus Labs

Full-stack geliştiriciden ajan mimarına. Jonas, çoklu ajan orkestrasyonu, AgentOps ve insan-döngü-içinde tasarım kalıpları konusunda uzmanlaşarak finans, üretim ve SaaS sektörlerinde üretim yapay zeka ajanları dağıtmıştır.

Ilk yapay zeka ajaninizi konuslandirmaya hazir misiniz?

Kesif Gorusmesi