BELMA
Benchmark Evaluativo Legal Mexicano de IA
Convocatoria abierta · 2026 · v0.1

Un estándar abierto para evaluar la inteligencia artificial en el derecho mexicano.

Hacia un estándar abierto, reproducible y público para evaluar sistemas de inteligencia artificial aplicados al derecho mexicano.

tareas × áreas del derecho
§

Resumen

BELMA es una iniciativa abierta para construir el primer dataset legal mexicano anotado por la comunidad jurídica. Convoca a profesores, investigadores, abogados en ejercicio, equipos legales internos y estudiantes a definir la metodología, curar el corpus y anotar las tareas que conformarán el benchmark. El dataset, la metodología, el código de evaluación y los resultados serán de acceso público.

i.
Propuesta

¿Qué es BELMA?

Cuatro elementos que operan en conjunto.
01

Dataset abierto

Tareas legales mexicanas anotadas por profesionales del derecho, de acceso público para investigación y evaluación.

02

Metodología reproducible

Rúbricas y criterios documentados de forma tal que cualquier equipo pueda correr el benchmark y verificar resultados.

03

Diversidad legal

Múltiples áreas del derecho mexicano y un mix de tareas que evita privilegiar las fortalezas de un sistema específico.

04

Gobernanza independiente

Las decisiones las toma un Comité Técnico de academia, barra y práctica. Temis no ostenta mayoría ni poder de veto.

ii.
Motivación

Motivación

El problema de medir la IA en el derecho mexicano.

Cada proveedor presenta sus propias métricas. Cada despacho prueba a su manera. Los compradores carecen de un estándar para distinguir las herramientas que funcionan de aquellas que solamente comunican bien.

“Un dataset público, anotado por profesionales del derecho mexicano, sobre el cual cualquier sistema pueda evaluarse de forma transparente y reproducible.”

La academia no dispone de una base común sobre la cual investigar el comportamiento de los modelos de lenguaje en tareas legales en español jurídico mexicano.

BELMA propone llenar ese vacío: un dataset público, anotado por profesionales del derecho mexicano, con metodología validada por un comité independiente.

iii.
Trayectoria

Fases del proyecto

Trayectoria de trabajo.
I

Convocatoria y comité

Inscripción abierta. Conformación del Comité Técnico Asesor con representación plural de academia, barras y práctica.

En curso
II

Definición metodológica

Taxonomía de tareas, esquema de anotación, rúbricas de evaluación y política de acceso al dataset. Publicación para comentarios.

Próxima
III

Construcción y anotación

Sourcing de fuentes públicas. Anotación distribuida con doble revisión y adjudicación. Reporte de inter-annotator agreement.

Pendiente
IV

Validación y publicación

Evaluación de modelos de referencia. Lanzamiento del dataset, paper técnico y leaderboard abierto.

Pendiente
iv.
Principios

Principios

Tres compromisos que rigen la iniciativa.
i.

Neutralidad.

Las decisiones metodológicas, la selección de tareas y la curaduría del dataset son responsabilidad del Comité Técnico. Temis no ostenta mayoría ni veto.

ii.

Transparencia.

Dataset, metodología, código y resultados son públicos. Temis publicará sus propios resultados sin importar la posición que ocupe en el leaderboard.

iii.

Rigor metodológico.

Doble revisión, adjudicación de discrepancias y reporte de inter-annotator agreement. Revisión externa antes de publicar la versión 1.0.

v.
Convocatoria

¿A quién buscamos?

Cuatro perfiles complementarios.
01

Academia e investigación

Profesores, investigadores y estudiantes de posgrado en derecho o ciencias de la computación con interés en metodologías de evaluación.

02

Despachos y litigantes

Abogados con práctica activa en cualquier área del derecho mexicano, con criterio profesional sobre la dificultad y relevancia de cada tarea.

03

Equipos in-house

Áreas legales corporativas que evalúan o utilizan herramientas de IA jurídica, con perspectiva sobre criterios reales de utilidad.

04

Estudiantes

Estudiantes de derecho de los últimos semestres con interés en investigación, tecnología legal o metodologías de evaluación.

vi.
Compromiso

¿Qué obtienes al participar?

  • + 01Autoría en el paper técnico que acompañará el lanzamiento del benchmark, para anotadores principales y miembros del comité.
  • + 02Registro público de tu participación en el sitio del proyecto y en publicaciones derivadas, con institución y rol.
  • + 03Certificado de participación verificable.
  • + 04Sin compromiso de dedicación específica; el comité define alcance por fase.

Súmate a la convocatoria.

Inscripción gratuita y abierta a personas físicas y morales en belma.org.mx.

belma.org.mx
FORMULARIO DE INSCRIPCIÓN
DECLARACIÓN

Declaración de conflicto de interés

BELMA es impulsada por Temis AI, Inc., quien aporta infraestructura y secretaría técnica durante la fase de arranque. Las decisiones metodológicas, la selección de tareas y la curaduría del dataset son responsabilidad exclusiva del Comité Técnico, en el cual Temis no ostenta mayoría ni poder de veto. El dataset, la metodología, el código de evaluación y los resultados —incluidos los de Temis— son públicos.