Dataset abierto
Tareas legales mexicanas anotadas por profesionales del derecho, de acceso público para investigación y evaluación.
Hacia un estándar abierto, reproducible y público para evaluar sistemas de inteligencia artificial aplicados al derecho mexicano.
BELMA es una iniciativa abierta para construir el primer dataset legal mexicano anotado por la comunidad jurídica. Convoca a profesores, investigadores, abogados en ejercicio, equipos legales internos y estudiantes a definir la metodología, curar el corpus y anotar las tareas que conformarán el benchmark. El dataset, la metodología, el código de evaluación y los resultados serán de acceso público.
Tareas legales mexicanas anotadas por profesionales del derecho, de acceso público para investigación y evaluación.
Rúbricas y criterios documentados de forma tal que cualquier equipo pueda correr el benchmark y verificar resultados.
Múltiples áreas del derecho mexicano y un mix de tareas que evita privilegiar las fortalezas de un sistema específico.
Las decisiones las toma un Comité Técnico de academia, barra y práctica. Temis no ostenta mayoría ni poder de veto.
Cada proveedor presenta sus propias métricas. Cada despacho prueba a su manera. Los compradores carecen de un estándar para distinguir las herramientas que funcionan de aquellas que solamente comunican bien.
“Un dataset público, anotado por profesionales del derecho mexicano, sobre el cual cualquier sistema pueda evaluarse de forma transparente y reproducible.”
La academia no dispone de una base común sobre la cual investigar el comportamiento de los modelos de lenguaje en tareas legales en español jurídico mexicano.
BELMA propone llenar ese vacío: un dataset público, anotado por profesionales del derecho mexicano, con metodología validada por un comité independiente.
Inscripción abierta. Conformación del Comité Técnico Asesor con representación plural de academia, barras y práctica.
Taxonomía de tareas, esquema de anotación, rúbricas de evaluación y política de acceso al dataset. Publicación para comentarios.
Sourcing de fuentes públicas. Anotación distribuida con doble revisión y adjudicación. Reporte de inter-annotator agreement.
Evaluación de modelos de referencia. Lanzamiento del dataset, paper técnico y leaderboard abierto.
Las decisiones metodológicas, la selección de tareas y la curaduría del dataset son responsabilidad del Comité Técnico. Temis no ostenta mayoría ni veto.
Dataset, metodología, código y resultados son públicos. Temis publicará sus propios resultados sin importar la posición que ocupe en el leaderboard.
Doble revisión, adjudicación de discrepancias y reporte de inter-annotator agreement. Revisión externa antes de publicar la versión 1.0.
Profesores, investigadores y estudiantes de posgrado en derecho o ciencias de la computación con interés en metodologías de evaluación.
Abogados con práctica activa en cualquier área del derecho mexicano, con criterio profesional sobre la dificultad y relevancia de cada tarea.
Áreas legales corporativas que evalúan o utilizan herramientas de IA jurídica, con perspectiva sobre criterios reales de utilidad.
Estudiantes de derecho de los últimos semestres con interés en investigación, tecnología legal o metodologías de evaluación.
Inscripción gratuita y abierta a personas físicas y morales en belma.org.mx.