.

.

domingo, 30 de enero de 2011

Estudio en Google : Las palabras más largas son las más informativas


En cuestión de palabras, el tamaño sí importa. Eso es lo que asegura una investigación del Instituto Tecnológico de Massachusetts (MIT, por sus siglas en inglés), en EEUU. El investigador Steven T. Pintadosi y su equipo creen que el factor más importante a la hora de predecir la longitud de una palabra es su carga informativa. Es decir, a mayor cantidad de matices, más sílabas, como por ejemplo en el caso de 'negro' y 'negruzco'. Este estudio supone una firme alternativa a la teoría tradicional, que sostiene que el tamaño de las palabras tiene más que ver con la frecuencia con que las utilizamos.

Hace más de 50 años, el lingüista de Harvard George Kinglsey Zipf argumentó que si una palabra es más corta que otra, lo más probable es que se deba a que también es más habitual. ¿El motivo? La búsqueda de la eficiencia comunicativa: decir más con menos. Sin embargo, la teoría de Zipf no tiene en cuenta el contexto que rodea a las palabras en una frase.

Para intentar suplir esta laguna, los investigadores del MIT han elaborado una teoría alternativa según la cual las palabras está más determinado por la cantidad de información que una palabra aporta dentro de su contexto que por su frecuencia de uso.

La nueva teoría

Los investigadores trabajaron con palabras de 11 idiomas distintos que encontraron en el buscador Google. Las lenguas objeto del estudio fueron inglés, alemán, holandés, checo, francés, italiano, polaco, portugués, rumano, español y sueco.

Como resultado de la investigación -y contradiciendo a Zipf- nuestro léxico no sería el más conciso de los posibles porque no acorta las palabras más informativas (poca eficiencia comunicativa). Asimismo, los investigadores también creen que las sílabas más informativas duran más porque el propio lenguaje se modula para evitar comunicar demasiado en poco tiempo.

Matemáticas para medir palabras

Los investigadores sostienen que la cantidad de información contenida en una palabra depende de su contexto y por eso para elaborar su teoría utilizaron dos variables que llamaron C (contexto) y W (‘word’, palabra en inglés). Esas dos variables se juntan en un punto P. Finalmente, se obtiene una ecuación que serviría para predecir la longitud de cada palabra.

Uno de los problemas metodológicos a los que los expertos tuvieron que hacer frente es que el contexto se compone de muchos factores, pero para acotar el experimento sólo tuvieron en cuenta palabras cercanas en el mismo discurso. Además, también hay diferentes maneras de medir la longitud de una palabra, pero los investigadores se limitaron a su longitud ortográfica porque suele coincidir con la fonética y con el tiempo que tardamos en pronunciarlas. En el caso del inglés, alemán y el holandés tomaron en cuenta el número de fonemas y de sílabas.

Partiendo de esta base, los investigadores del MIT calcularon para cada idioma la correlación entre contenido informativo y longitud, así como entre frecuencia y longitud con la ayuda del llamado coeficiente ente de correlación de Spearman -que relaciona dos variables aleatorias continuas-. Para ello, trabajaron con tres bloques de palabras, cada uno con vocablos más largas que el anterior y comprobaron que, a medida que las palabras aumentaban de tamaño, su cantidad de información también.

Para asegurarse de que los resultados del estudio no estaban condicionados por la base de datos de Google, los investigadores volvieron a hacer este estudio –esta vez sólo con el idioma inglés- utilizando el Corpus Nacional Británico (BNC, por sus siglas en inglés).

No hay comentarios: