EVALUACIÓN CUANTITATIVA DEL LÉXICO PERIODISTICO
Ing. L. Marconi, Dr. D. Ratti, Dr. C. Rolando
Istituto per i Circuiti Elettronici, Consiglio Nazionale delle Ricerche,
Via De Marini 6, 16149 Genova, Italy
Abstract
Our corpus comprises all editions of the Repubblica newspaper published in 1994. These have been analysed automatically to establish the newspapers language richness and variety. Since the data have not been lematized, our analysis is based on all forms encountered in the corpus. The words in the corpus have been classified according to the following types : news ; business and finance ; politics ; culture entertainment ; and sport. This classification follows the scheme developed for the Italian corpora project. Various statistical analyses will be presented and discussed.
Para la creación de un corpus de referencia de la lengua italiana se han recojido "en machine readable form" los editoriales de algunos entre los diarios más vendidos y, por lo tanto, más leidos en Italia. Desde un punto de vista lingüístico el proyecto es muy interesante en cuanto al lenguaje periodístico conviven casi todas las variedades de la lengua escrita. De hecho el fáctor distintivo de la escritura periodística respecto a los distintos lenguajes especializados es un proceso de reformulación que hace del lenguaje un producto facilmente vendible y consumible, casi un metalenguaje de las distintas variedades. Para esta investigación se han examinado los diarios a lo largo de un año de la "Republica", uno de los más importantes diarios italianos, se han sometido a un analísis automático sin hacer la lematización como, en principio, era nuestra intencion y se ha realizado una enfrentación entre las variedades del lenguaje periodístico. Se han individualizado las distintas variedades en "crónaca", "économia y finanza", "política", "cultura", "espectáculos" y "deporte". Se ha procedido recogiendo todos los editoriales de cada variedad en un unico "file" distinguiendolo mediante un espediente gráfico. De esta manera se ha podido medir la longitud da cada editorial en cada variedad y calcular la longitud media de los editoriales en cada variedad.
El numero total de las formas en cada variedad es : crónaca : 1.829.905 ; cultura : 1.555.558 ; economía : 1.728.175 ; espectáculo : 1.108.844 ; deporte : 1.836.594 ; política : 1.581.536. De este datos bastante brutos se puede hacer la consideración que las distintas variedades aparecen bastante bien equilibradas, de hecho se va de casi 2.000.000 a 1.500.000 por cada variedad a pesar de la variedad espectáculo que no llega al 1.200.000. Ni asombra que el deporte tenga el numero mayor de ocurencias porque es un dato que se podia presuponer con facilidad considerando el interés del pueblo italiano para el futbol y todos los deportes en general.
El número de los distintos editoriales en cada variedad nos oferece algunas informaciones más, la "crónaca" el "deporte" y la "economía" tienen mas o menos el mismo numero de editoriales mientras la cultura tiene un numero bastante pequeño respecto al número de las formas, el que puede decir dos cosas, que los editoriales culturales son más largos de los otros y que el lenguaje de la cultura es más rico que lo de las otras variedades : crónaca : 5.742 ; cultura : 2.593 ; economía : 5.281 ; espectáculo : 2.618 ; deporte : 5.625 ; política : 4.281.
El numero de oraciones, intendiendo con oración la que va de un signo de puntuacion fuerte a otro, en cada editorial en cada variedad varia así : crónaca : 121.654 ; cultura : 95.383 ; economía : 101.063 ; espectáculo : 56.662 ; deporte : 142.017 ; política : 95.056. Con este dato se vee que la variedad cultura usa no sólo editoriales sino también un número de oraciones más grandes de las otras variedad ; en este sentido se empieza a ver la estilistica cuantitativa de cada genero de escritura periodística. Para evaluar mejor la distinción estilística entre las distintas variedades se ha calculado el número medio de oraciones en cada editoriales y en cada variedad, el número medio de palabras en cada editorial y en cada variedad y el numero medio de palabras en cada oración, en cada editorial y en cada variedad. Estos datos se pueden representar graficamente así :
Número medio de oraciones en cada editorial
Se nota que la variedad "cultura" se distancia sensiblemente de las otras. Este dato confirma que los editoriales culturales son más largos, es decir que no oferecen mera información sino discuten con una cierta amplitud el argumento tratado.
Número medio de palabras en cada editorial
También este dato confirma los precedentes. Lo que se puede notar más es que la crónaca usa un número menor de palabras distintas en frente a las otras variedades.
Numero medio de palabras en cada oraciones
Se nota que la variedad "deporte", como estilema, usa oraciones más breves o con palabras repetidas y la variedad "espectáculo" tiene, por lo contario, la primacia de la oración más larga o más rica lexicalmente.
Las palabras más frecuentes comunes a todas las variedades son las palabras gramaticales, entre las semánticas tenemos : anni : 26.472 ; Italia : 13.405 ; Roma : 12.606 ; presidente : 10.954 ; oggi : 10.729 ; tempo : 10.379 ; giorni : 8.265 ; volta : 8.265 ; dice : 8.233 ; detto : 8.143 ; mondo : 7.796 ; casa : 7.796 ; cosa : 7.738. Lo que parece más curioso en esta pequeña lista es que, a pesar las palabras "Italia" y "Roma" que aparecen muy frecuentemente como es natural tratandose de un diario italiano, la alta frecuencia de años, tiempo, mundo, casa, cosa y las voces del verbo decir ya que estas palabras configuran las dimensiones temporal y espacial y enseñan una de las acciones principales del hombre : "decír".
En la "crónaca" las palabras mas frecuentes son : casa : 2.645 ; vita : 1.945 ; donna : 1.821 ; polizia : 1.804 ; carabinieri : 1.663 ; città : 1.646. Estas palabras hacen pensar que la crónaca es principalmente violenta ya que policía y carabineros aparecen tan frecuentemente y que la mujer es sobretodo el objeto de esta violencia.
En la "economía" las palabras más frecuentes son : gruppo : 4.321 ; governo : 4.179 ; banca : 4.179 ; società : 4.138 ; mercato : 3.805 ; lire : 3.601 ; ministro : 3.163. Se puede hipotizar que el mundo económico italiano está dominado por el gubierno, por grupos financieros, por bancos y por el mercado, es decir una fotografía realistica de la situación italiana.
En la "política" las palabras más frequentes son : ministro : 3.045 ; politica : 2.497 ; paese : 1.972 ; giorni : 1.919 ; Clinton : 1.701 ; leader : 1.698 ; guerra : 1.667 ; città : 1.582 ; casa : 1.554 ; tempo : 1.401 ; pace : 1.395 No se puede no poner antención al hecho que la escena política está dominada por el presidente de los Estados Unidos Clinton y que las palabras "guerra" y "paz" aparecen entre las más frecuentes con el valor de guerra más alto.
En la "cultura" las palabras más frecuentes son : vita : 2.557 ; libro : 2.469 ; storia : 2.349 ; tempo : 2.255 ; uomo : 1.516 ; cultura : 1.315 ; opera : 1.189. Por la primera vez aparece la palabra "hombre", el hombre en su historia con sus libros y sus obras colocado siempre en el tiempo.
En el "espectáculo" las palabras más frecuentes son : film : 6.687 ; anni : 3.873 ; cinema : 2.896 ; vita : 1.635 ; regista : 1.572 ; musica : 1.524 ; storia : 1.504 ; oggi : 1.454 ; festival : 1.450. Parece que los espectaculos o las formas artísticas preferidas sean el cine y la musica.
En el "deporte" las palabras más frecuentes son : squadra : 5.000 ; gol : 3.990 ; partita : 3.536 ; campo : 2.898 ; calcio : 2.888. Se individua inmediatamente que el deporte preferido por los italianos es el futbol.
Las palabras distintas son en total 197.206 de las cuales 297 no aparecen por lo meno en una variedad y 78.287 son las palabras con frecuencia igual a uno es decir que aparecen sólo en un sector determinado. Se nota que a partir de frecuencia dos el numero de las palabras distintas decrece en manera esponencial. Existen, en fin, muy pocas palabras que aparecen en un sector y tienen frecuencia zero en todos los otros y se trata principalmente de siglas.
Se han, en fin, analizado y evaluado los distintos titulares que constituien, para nosotros, un corpus aislado y distinto. De hecho los titulares tienen una funcion totalmente distinta de la de los editoriales, una función conativa en frente a una informativa, es decir estimulan la lectura del periódico resumiendo las noticias.
El numero total de las formas en cada variedad en los titulares es : crónaca : 39734 ; cultura : 11501 ; economía : 34870 ; espectáculo : 16033 ; deporte : 30081 ; política : 27399.
Si en los editoriales la "cultura" detenia la primacia del número medio de palabras en los titulares la situación se invierte, la variedad "cultura" usa titulares breves y la "crónaca", por lo contrario, muy largos ; es un dato que hace presumir que la crónaca resume en los titulares el máximo de la información al contrario de lo que pasa en la "cultura".
Número medio de palabras en los distintos titulares
También en los titulares las palabras más frecuentes en todas las variedades son las gramaticales o sinsemánticas y en cada variedad encontramos algunas palabras con una frecuencia tipica de la variedad.
En la crónaca se tiene entre las palabras más frecuentes : anni con frecuencia 175 en frente a una frecuencia total de 319 ; figlio con frecuencia 95 en frente a 120 total ; killer con frecuencia 84 en frente a 103 ; boss con frecuencia 82 en frente a 84 ; es divertito que los otros dos aparecen solo en la variedad "política" ; scuola con frecuencia 65 en frente a 84 ; morte con frecuencia 64 en frente a 113 ; ucciso con frecuencia 61 en frente a 95 ; sesso con frecuencia 54 en frente a 92 ; aids con frecuencia 51 en frente a 67.
En la economía : miliardi : 157/254 ; borsa : 121/130 ; ripresa : 90/95 ; comit : 89/89 ; tassi : 86/87 ; affari : 83/105 ; banche : 74/80 ; lavoro : 73/110 ; utile : 52/54.
En la "política" : Clinton : 104/120 ; pace : 68/130 ; ONU : 62/67 ; leader : 45/75 ; strage : 39/69 ; presidente : 38/80.
En la cultura se usan palabras casi todas comunes a las otras variedades, se han encontrado, siempre entre las más frecuentes, solo dos palabras tipicas del sector : best-seller : 22/23 ; mostre : 21/21.
En la variedad "espectáculo" hay : cinema : 130/143 ; film : 76/109 ; teatro : 62/70 ; festival : 31/34 ; rock : 29/41 ; regista : 22/25.
En la variedad "deporte" hay : calcio : 332/342 ; news : 287/287 ; Milan y otros nombres de equipos y de jugadores : 143/144 ; gol : 101/104 ; ferrari : 39/46 ; basket : 36/36 ; gioca : 34/48.
Los datos presentados son todavia bastante primitivos y faltan de interpretación, nuestro trabajo está sólo empezando ya que se trata de millones de palabras ; pensamos acabarlo haciendo recurso a la lematización que nos permitiria tratar con un números inferiores facilitando así el reconocimiento del uso de cada forma del italiano en el lenguaje periodístico.