— heute
AI Evaluation, Data Quality & Software Engineering
- QA und rubrikbasiertes Auditing der Datensätze anderer Contributoren für Function-Calling- und Agentic-AI-Projekte — Prüfung auf Korrektheit, Formatkonformität und Konsistenz vor der Auslieferung sowie Durchsetzung von Qualitätsstandards im Master-Review-Team.
- Einrichtung und Konfiguration lokaler Modell-Umgebungen, um Frontier-Modelle gegen reale Aufgaben laufen zu lassen und Datensätze zu erzeugen; Erstellung von Trainings- und Evaluierungsdatensätzen inkl. HFI-Problemsets für Frontier-Model-Coding-Aufgaben.
- Forking und interne Erweiterung von Open-Source-Tooling — JSON-Unterstützung in Cerberus; mehrschichtige Validierung und Error Detection in Haystack — ausgeliefert als Teil des Datensatzes.
- RLHF-Evaluierung und mehrstufiges Prompt-Design für Agentic-Coding-Aufgaben, mit paarweisen Vergleichen von Frontier-Modellen und kalibrierter, rubrikbasierter Bewertung auf Korrektheit, Reasoning und Instruction-Following; systematische Dokumentation von Fehlermustern und Edge Cases.