Métodos estadísticos y problemas de autoría
El libro IV de las Estratagemas de S. JULIO Frontino
Empar Espinilla Buisán - Montserrat Nofre Maíz
Servei de Lexicometria - Universitat de Barcelona
Gran Vía CC 585, 08007 Barcelona, Espanya
Résumé
Lattribution à Frontin (Ier siècle) du livre IV des Stratagèmes a été mise en cause bien quaucun autre nom dauteur nait été suggéré. Des indices de richesse lexicale décèlent, en général, un haut niveau pour le livre IV qui sajuste au statut des Stratagèmes dans lensemble de luvre de Frontin (Aqueducs et traité darpentage). De leur côté, des mesures sur la structure des mots montrent une cohérence entre les quatre livres des Stratagèmes.
1. El problema filológico
Tres son los tratados que nos han llegado de Sexto Julio Frontino, escritor de prosa técnica de la segunda mitad del siglo I: algunos fragmentos sobre la técnica gromática y su legislación (AGR: De agri mensura), un anecdotario para uso de los oficiales del ejército romano, el cual, mediante ejemplos de estratagemas seleccionadas de la historia griega y romana, ilustraba los principios del arte de la guerra (STR: Strategemata), y un tratado sobre la conducción de agua a Roma (AQ: De aquaeductu urbis Romae).
El problema de autoría se presenta a propósito de Strategemata. A pesar de que Frontino, en el prólogo de la obra, agrupa los ejemplos en tres secciones estratagemas para antes de la batalla (libro I), para durante y después de la batalla (libro II), y astucias apropiadas en caso de sitio (libro III), la obra siempre se ha conocido acompañada de un volumen suplementario (libro IV). Durante las últimas décadas del siglo XIX los filólogos acometieron la autenticidad del libro IV, y, aunque actualmente, gracias a un trabajo de G. Bendz (1939), muchos, tal vez la mayoría, lo aceptarían como frontiniano, la autenticidad del libro IV constituye un problema debatido in extenso.
En este trabajo tratamos de experimentar algunas de las posibilidades que ofrece la estadística literaria en la determinación de la autenticidad de STR4. Sin embargo, antes de describir e interpretar los resultados, se hace preciso presentar la compleja situación filológica de STR4, con la cual deberán ser confrontados los datos estadísticos y que explicará en buena medida lo difícil que resulta obtener valoraciones concluyentes:
a) Ausencia de un autor candidato a la autoría: ello implica que, si podemos caracterizar STR1-3 a través de unas constantes estadísticas, nuestro trabajo será básicamente el de establecer en qué medida STR4 se integra o se separa de ellas.
b) Indeterminación del período en que escribe el hipotético autor: la falta de rasgos lingüísticos cuantitativa y cualitativamente diferenciadores ha ocasionado que la ubicación del pseudo-Frontino oscile entre los siglos IV o V, principios del siglo II y la segunda mitad del siglo I.
c) Bendz y los partidarios de un libro IV frontiniano salvan el problema de la no diferenciación lingüística, pero se ven obligados a explicar las diferencias entre STR1-3 y STR4 a través de los conceptos "segunda idea", "propósito adicional", "inclusión precipitada".
d) Imprecisión en la cronología de redacción. Ello no obstante, el orden comúnmente aceptado es AGRSTRAQ. Del 81 al 96 para AGR y STRA79, o después del 79, para AQ.
2. Diseño del corpus y métodos estadísticos
El texto de STR, exportado del CD-ROM 5.3 del PHI en los términos establecidos por la licencia, reproduce la edición de G. Bendz (Berlin 1963); los textos de AQ y AGR se han escaneado y tratado con un OCR a partir de las ediciones de T. González Rolán (Madrid 1985) y A. Resina Sola (Granada 1983), respectivamente.
Una vez el corpus textual en soporte magnético, se impone una elección metodológica crucial. Trabajar con los datos brutos (raw data) o lematizar. Precedentes autorizados, aún considerando que la lematización previa al tratamiento estadístico es algo indispensable para suprimir las ambigüedades, no dejan de aconsejar prudencia y señalar la subjetividad y poca coherencia en que a menudo se incurre (Hamesse: 98). En nuestro caso hemos optado por la primera vía metodológica inducidos básicamente por los estudiosos de Tucídides, quienes han observado que los resultados obtenidos en el corpus lematizado de las Historias desdicen los únicos datos con una evidencia externa suficientemente aceptada por los filólogos (Amisano-Lana 1992: 209).
En líneas generales, la intervención sobre el texto ha sido mínima: a) puesto que la edición se establece a partir de diversos mss, hemos mantenido todas las conjeturas textuales del editor propias o heredadas, pero hemos eliminado lo que considera no frontiniano, es decir, lo que aparece entre paréntesis cuadrados; b) no hemos excluido los nombres propios a pesar de las reservas expresadas por Amisano-Lana (1992: 209), teóricamente válidas pero que, de aplicarse, no sólo deberían concernir a este grupo; c) los enclíticos se han separado, así la grafia marique proporciona a los cálculos dos formas, mari y que; d) respecto a las mayúsculas, sólo se han mantenido en el caso de los nombres propios, en el resto de contextos tipográficos no se ha procedido a la distinción de cajas (mayúsculas sistemáticas); e) hemos eliminado las escasísimas grafías griegas y, a fin de no enmascarar las estadísticas sobre monógrafos, se han suprimido tanto las cifras romanas, como las mayúsculas aisladas que abrevian un praenomen.
De entre los métodos examinados por Holmes (1994) sobre la cuestión general de la atribución de autoría hemos utilizado cuatro: las rationes formas/ocurrencias, el estudio de los hápax legomena, els de los hápax dislegomena, y las estadísticas sobre la longitud de las palabras.
3. Rationes sobre las formas (V) y las ocurrencias (N) (cf. tabla I)
Si la estadística literaria es basicamente una estadística lexical, una de sus principales aplicaciones concierne a los trabajos estilísticos (Delcourt: 134). La estilometría busca traducir el "estilo" mediante unidades de medida, el "estilo" deviene, en consecuencia, un conjunto de patrones cuantificables específicos de un autor. Puesto que, en este contexto, la cuantificación de la riqueza lexica adquiere una particular relevancia, procedemos a describir en qué medida STR4 se acerca a las cuantificaciones estilométricas del corpus frontiniano.
3.1. Ratio formas/ocurrencias (R=V/N)
La medida más sencilla la obtenemos en la proporción simple formas/ocurrencias, cuyos resultados oscilan entre 0-1, siendo 0 la ausencia de formas con frecuencia 1, y 1 que todas la formas presentan 1 ocurrencia.
a) En STR, STR4 (0,54) obtiene el resultado más alto, que supera el punto medio. Si lo comparamos con los otros libros, STR3 se le acerca puesto que también lo supera de poco (0,51). STR2 (0,4) es el libro que más alejado del comportamiento del conjunto.
b) En el corpus frontiniano la secuencia AGR (0,47)STR1-3 (0,34)AQ (0,32) ordena los textos de mayor a menor riqueza léxica, pero la diferencia entre STR y AQ es escasa. Cabe notar el contraste entre el "Frontino auténtico" y STR4 (0,54).
3.2. R=V/N N fija = 1000 y R=V/N N fija = 500
En el tipo de cuantificación que acabamos de exponer el índice R no se muestra estable cuando se producen variaciones en la longitud del corpus: mientras N puede aumentar ilimitadamente,V, en la práctica, será una magnitud finita (Holmes: 92). Probablemente el nivel de riqueza léxica será más grande cuanto menos extenso sea el corpus debido a que el volumen de un texto propiciaría la repetición de formas. Así pues, hemos contrastado los cálculos del apartado anterior a un índice con N fija. Los resultados N fija=1000 se desvían de los resultados expuestos en el apartado precedente:
a) En STR, STR4 (0,70) deja de ser el libro caracterizado pon un mayor nivel léxico y pasa a serlo STR1 (0,711) que coincide con el subconjunto STR1-3; la diferencia es muy sensible. STR2 presenta, de nuevo, los resultados más bajos de riqueza léxica (0,6).
b) En la totalidad del corpus, cada obra vuelve a marcar un resultado numérico diferente, pero, ahora, los resultados ofrecen, de mayor a menor, la ordenación STR1-3 (0,71)AQ (0,60)AGR (0,50).
Dado que N fija=1000 constituía casi el 50% de la extensión de AGR (N=2281), decidimos comprobar los resultados que generaba una N fija=500.
c) En el corpus STR, STR4 vuelve a ser el libro de mayor nivel léxico (0,78), STR2 sigue siendo el de menos (0,6).
d) En la totalidad del corpus la secuencia léxica no difiere de la proporcionada por N fija=1000: STR1-3 (0,75)AQ (0,72)AGR (0,60).
3.3. Ratio ocurrencias/formas (R=N/V)
La proporción ha sido definida como el índice según el cual un autor genera nuevas palabras (Baker: 1988). A pesar de que Baker, en estudios sobre autores elisabetianos, considera R extremadamente caracterizadora del estilo de un autor e independiente tanto del volumen de texto como del género es decir, apropiado para dar cuenta del grado de madurez y desarrollo del hacer léxico de un autor, su validez ha sido tratada con reservas (Holmes: 92). La ratio, forzosamente ha de ofrecer resultados proporcionalmente inversos a N/V, y, por ende, genera las mismas conclusiones del § 3.1.
4. Ratio hápax legomena/formas (R=V1/V) (cf. tabla I)
Utilizamos la ratio entre hápax legomena y total de formas para cuantificar el nivel de variedad léxica de un texto. La proporción se mueve entre 0-1: 0 significa que no se da nigún hapax legomena y 1 que todas las formas lo son.
a) En STR, todos los libros superan la proporción media, pero el índice más alto es el de STR4; la diferencia más relevante se establece entre STR4 (0,77) y STR2 (0,69).
b) En el corpus frontiniano, STR4 se aleja más de un punto de las obras auténticas, que conforman la secuencia AGR (0,68)STR1-3 (0,65)AQ (0,64).
c) Tanto STR1-3 (0,65) confrontado al corpus general, como STR4 (0,77) dentro de STR, modifican con intensidades diferentes la propensión de R a decrecer cuando N aumenta. Presentan pues, un alto grado de variedad léxica como rasgo específico. AGR (0,68 N=2281) se destaca por ser la obra con menor número de ocurrencias y presentar una ratio inferior a la de los libros de STR (entre 0,69 y 0,73) que duplican, cuatriplican y sextuplican la N de AGR.
Hemos introducido la función R-Honoré (R=100logN/1-V1/V) porque examina la tendencia de un autor a escoger entre una forma utilizada o una forma nueva; cuanto más elevado sea el índice R, más variado será el vocabulario, en el sentido de que el resultado más alto significa que un gran número de palabras se repiten infrecuentemente (Holmes: 97). En Cicerón, R-Honoré ha señalado un enriquecimiento progresivo del vocabulario entre 70-66 y 45-43 a JC. La función podría, pues, constituir una buena medición del cambio del nivel léxico de un autor a lo largo del tiempo (Honoré: 1979); sin embargo, no siempre la madureza vital o intelectual y la experiencia literaria se asocian a un aumento de la diversidad léxica (Holmes).
d) Dentro de STR, STR4 ofrece el resultado más alto (1,612), es decir continua caracterizado como el libro de vocabulario más rico y, de nuevo, se muestra alejado de STR2 (1,278).
e) En el corpus frontiniano, la función produce una secuencia AQ (1,143)STR (1,124)AGR (1,072). Aplicando el supuestos antes mencionado, se podría hipotetizar un orden cronológico de composición inverso AGRSTRAQ, que coincide exactamente con los datos de la crítica filológica y literaria (cf. § 1.d.).
5. Ratio hápax dislegomena/formas (R=V2/V) (cf. tabla I)
Se ha señalado una tendencia a la no variabiliad en la proporción V2 de un texto, sea cual sea su número de ocurrencias: R crece rápidamente con el incremento de N, después se mantiene estable para un largo segmento de V antes de decaer muy paulatinamente hacia 0 cuando N ° (Holmes: 98). El índice ofrecería, pues, una constante de equilibrio apropiada para caracterizar la riqueza de vocabulario y, por consiguiente, para establecer comparaciones. La estabilidad de la función ha sido señalada, teórica y empirícamente, para 1.000<N<400.000; nuestros textos se ajustan a ella. Si en los ejemplos del inglés reportados por Holmes, R sólo varía de 0,17 a 0,18 en corpus de 2, 4, 6 y 8 mil ocurrencias; en el corpus estudiado no hallamos una constante o, como mínimo, hemos de decir que está muy poco marcada, puesto que R presenta los valores 0,11 / 0,13 / 0,14 / 0,15 y 0,16. Incluso en 2 textos N=± 4000 el índice varía entre 0,14 (STR3) y 0,11 (STR4). Frontino no permite verificar claramente el virtual equilibrio de la proporción.
a) En STR, STR4 es el libro en el que la proporción de hápax dislegomena es menor (0,11), se invierte por primera vez la valoración de los extremos en los que aparecían STR4 y STR2 (0,15, el mayor índice de utilizacón de V2).
b) En el corpus total, la secuencia es AGR (0,16)STR1-3 (0,15)AQ (0,13). Si notamos que STR1-3 casi multiplica por 8,5 la N de AGR, el equilibrio de R se haga más perceptible.
6. Datos referidos a la longitud de las palabras (cf. tabla III)
Los resultados sobre la longitud de las formas no nos conducirán, como en el apartado anterior, a caracterizar el léxico mediante la cuantificación de su riqueza, sino a intentar establecer diferencias porcentualmente significativas en la estructura de las palabras. Dado que una característica del latín tardío es su gusto por las "expresiones abundantes" (Väänänen: 150, 158, 182-83), la hipótesis de un autor de los siglos IV-V podría encontrar un punto de apoyo si se apreciaran globalmente longitudes mas largas en STR4. Sin embargo, las curvas de los histogramas son muy similares y comparten las principales constantes (cf. histogramas I-II) : a) similitud en los porcentajes, b) un gran salto entre monógrafos y bígrafos, c) la caída de la curva en los tetrágrafos, y, d) un paulatino descenso a partir de los eptágrafos. Los fenómenos descriptivos más destacables son la mayor frecuencia de la longitud 7 en STR4 y la bimodalidad de STR3 (longitudes 6-7) frente a la unimodalidad de los libros restantes. Precisamente la bimodalidad 6-7 de STR3 resta especificidad al dato que podría inducir a pensar en un predominio de mayores longitudes gráficas para STR4 (mayor frecuencia de la longitud 7) .
Podemos concluir que no se aprecian diferencias significativas entre STR4 y STR1-3 y que todo el conjunto de STR es homogéneo. La cohesión interna se hace más evidente cuando observamos los resultados en el ámbito de la utilización de la última letra de las palabras ( cf. tabla II): su comportamiento es idéntico tanto en la sucesión de los porcentajes como en los pares en los que se producen inversiones porcentuales (r-n / u-x / b-c).
7. Conclusiones
A través de datos estadísticos se ha procedido a una crítica interna entre los textos fronti-nianos y el libro discutido para describir el comportamiento de éste respecto a las virtuales constantes de aquéllos. Hemos trabajado en primer lugar, y fundamentalmente, con caracterizaciones estilométricas, en segundo lugar con la comparación de algunas de las propensiones en la estructura de las palabras.
En la caracterización mediante la cuantificación de la riqueza léxica, podemos esbozar las siguientes tendencias: I) Describiríamos STR1-3, en el conjunto de la obra frontiniana, como un texto de nivel léxico muy elevado a pesar de que las rationes no aportan resultados uniformes: que no sean uniformes no implica que sean contradictorios. Los índices más sensibles a las variaciones de N ofrecen la secuencia, de mayor a menor: AGRSTRAQ; sin embargo, de la consideración de la N correspondiente (2281-19324-10562), se deduciría que STR1-3 es un texto de gran riqueza léxica. Sorprendentemente los índices que obvian la extensión del texto, y por tanto los más adecuados y fiables, proporcionan dos ordenaciones: a) STRAQAGR (V/N con N fija) y b) AQSTRAGR (R-Honoré). La pequeña diferencia que en R de Honoré separa AQ (1143) y STR (1124), de nuevo afirma el alto nivel léxico de STR1-3. Ya en otro orden de cosas, la ventaja de la función de Honoré es que ofrece un orden de redacción idéntico al postulado por la tradición filológica: AGRSTRAQ.
II) Dentro de STR, sin duda, lo más evidente es la oposición STR4-STR2. La relevancia del libro IV como la subdivisión con mayor riqueza léxica (en todas las medidas excepto en V/N fija =1000 y V2/V su comportamiento es el mismo), contrasta con STR2, que aparece como el libro de menor nivel léxico excepto en el uso de V2. El funcionamiento de STR3 y STR1 fluctua según el tipo de medición utilizado. Los datos de este apartado nos llevarían pues, a constatar una diferencia estilométrica clara y precisa entre STR4 y el resto de los libros, sin permitirnos negar la autoría de Frontino.
Podemos concluir que los índices de riqueza léxica apuntan a ver en STR4 un texto de alto nivel, característica que se acomoda bien al comportamiento del bloque STR1-3 respecto al corpus frontiniano. Por su parte, las cuantificaciones sobre la estructura de las palabras evidencian una gran homogeneidad entre todos los libros de STR al tiempo que diferencian el funcionamiento de STR confrontado con AGR y AQ (cf. tabla ii, histogramas III-IV).
Estas apreciaciones no pueden conducir a aseverar o refutar la autoria frontiniana para el libro discutido creemos que en estudios futuros es imprescindible la comparación con un referente neutro, pero, sin duda, aportan argumentos nuevos que contribuyen a reforzar la cohesión y congruencia entre el libro IV y el resto de los libros de Strategemata, ya apuntada por Bendz en otros ámbitos.
Bibliografía
Amisano, E. - Lana, M. (1992). Recherche sur lauthenticité du viiième livre des Histoires de Thucydide. In Bécue, M. et alii (eds.), Jadt 1990, Barcelona: Pupc, 205-212.
(1995). Attribuzione dellAthenaion Politeia di Senofonte e del libro viii delle Storie de Tucidide. In Bolasco, S. et alii (eds.), Jadt iii 1995, vol. II. Roma: cisu, 305-312.
Baker, J. C. A. (1988). Pace. A test of Autorship Based on the Rate at Which New Words Enter an Authors Text. Journal of the ALLC 3, 1, 36-39.
Bendz, G. (1939). Die Echtheistfrage des vierten Buches der frontinschen Strategemata. Philologische Wochenschrift 59, 234-54.
Delcourt, Ch. (1987). La statistique littéraire. In Delcroix, M. (ed.) Méthodes du texte. Louvain-la-Neuve: Duculot, pp. 132-147.
Hamesse, J. (1982). Problèmes dauthenticité et analyse factorielle. A propos dune oeuvre de Saint Bonaventure. In Berni Canani, U. (ed.). Lanalisi delle frequenze. Problemi di lessicologia. Roma: Edizioni dellAteneo, pp. 93-100.
Holmes, D. I. (1994). Autorship attribution. Computers and the Humanities, 28, 87-106.
Holmes, D. I. - Forsyth, R. S. (1995). The Federalist Revisited: New Directions in Autorship Attribution. Literary & Linguistic Computing, 10, 2, 111-128.
Honoré, A. (1979). Some Measures of Richness of Vocabulary. ALLC Bulletin 7, 2, 172-177.
Väänänen, V. (1975). Introducción al latín vulgar. Madrid: Gredos.