h1

Cuestiones de método y obtención de datos en gramática generativa

1 febrero 2011

Últimamente he perdido bastante tiempo pensando en los aspectos más “epistemológicos” de la gramática generativa. Cierto punto que ha despertado mi interés es la discusión existente entre quienes plantean que los datos del gramático deben provenir de corpus lingüísticos y quienes sostienen que lo mejor es basarse en las “intuiciones” de los hablantes. Algo de esto es lo que transcribo a continuación en un fragmento que adapté parcialmente a partir del capítulo introductorio a Syntax: A Generative Introduction, de Carnie.

La aplicación del método científico a la sintaxis involucra considerar cuáles serán las fuentes de nuestros datos. Una fuente obvia es la compilación de textos hablados o escritos. Tales fuentes son denominadas corpora (singular: corpus). Hay muchos corpora disponibles al alcance de cualquier investigador (muchas son accesibles a través de internet). Por otro lado, aquellas lenguas que no tienen una larga tradición literaria o son habladas por un grupo minoritario deben ser investigadas a partir de otras fuentes. Así, muchas veces es necesario que el lingüista compile datos haciendo estudio de campo. De hecho, ésta fue la principal tarea de los lingüistas en la primera parte del siglo XX y es, en la actualidad, llevada adelante por gran número de investigadores.

Si bien los corpora son incuestionablemente una fuente importantísima de datos, los mismos sólo son una representación parcial de la realidad psicológica de la sintaxis. En concreto, los corpora sólo contienen oraciones gramaticales (i.e. oraciones que “suenan bien” a los oídos de un hablante nativo), y ya se ha mencionado que es necesario testear nuestras hipótesis con evidencia negativa para probar su falsabilidad. Incluso aquellos corpora basados en la recopilación de errores reales no necesariamente contienen el tipo de dato que necesitamos.

Las restricciones de los corpora no se limitan sólo a su falta de datos negativos. Un corpus es, por definición, sólo un muestreo de las formas que se registran en una lengua. El problema es que la naturaleza intrínsecamente productiva y creativa del lenguaje hace que no exista manera de que un corpus contenga, al menos, una muestra representativa de las oraciones gramaticales de una lengua. Si basamos nuestra teoría únicamente en los corpora, tendremos una teoría que predecirá los datos que han sido registrados, pero eso no nos garantiza que estemos describiendo fielmente qué es la sintaxis humana.

Vayamos a un caso más concreto. Considérese la siguiente oración:

(4)          *¿Qué te preguntas quién compró?

Para todo hablante de español, (4) es casi una ensalada de palabras, no un oración bien formada. ¿Cómo lo saben? ¿Alguien se encargó de enseñarle a la gente que no se pueden decir cosas como (4)? El hecho de que una oración como (4) suene mal pero oraciones similares como la de (5) suenen bien no está reflejado en ningún corpus.

(5)          ¿Quién pensás que compró la computadora?

La diferencia que hay entre (4) y (5) es central para el requisito de predictibilidad que impone el método científico sobre nuestras teorías (i.e. debemos ser capaces de predecir que la sintaxis del español puede generar (5) pero no (4)). Para detectar este contraste es necesario confiar en el conocimiento de nuestra lengua nativa (o en el conocimiento de un informante hablante nativo, para el caso de lenguas que no hablemos). Nótese que este tipo de conocimiento no esconsciente: es poco probable que las personas en general sepan por qué (4) está mal formada (y, sin embargo, se dan cuenta de ello). La tarea del sintactista debe ser describir este conocimiento inconsciente.

El experimento psicológico que se utiliza para dar cuenta de este tipo de conocimiento inconsciente es llamado tarea de juicio gramatical. El juicio gramatical consiste en pedirle a un hablante nativo que lea o escuche una oración y juzgue si está bien formada (gramatical), marginalmente bien formada, o definitivamente mal formada (inaceptable o agramatical). La tarea de juicio gramatical tiene una base científica bien establecida, dado que la prueba puede ser replicada bajo condiciones experimentales estrictamente controladas. Además, otras disciplinas también utilizan tareas de juicios basados en conocimiento inconsciente: en el estudio de la visión, por ejemplo, se ha determinado que las personas pueden establecer acertadamente la diferencia entre distintos grados de intensidad de luz.

Pues bien, justamente hoy me topé con un trabajo en el que se ha demostrado parcialmente que la metodología que ha venido utilizando la gramática generativa es adecuada con respecto a la realidad psicológica del lenguaje. La investigación en cuestión fue realizada por Jon Sprouse y Diogo Almeida y lleva el descriptivo título de The 469 data points that form the empirical foundation of generative syntactic theory are at least 98% replicable using formal experiments. He aquí el abstract (que traduje al español):

Los juicios de gramaticalidad en el campo de la sintaxis generativa han sido objeto de un desarrollo informal, es decir, no se han ajustado estrictamente a los métodos formales de la psicología experimental. Dos tipos de argumento han sido propuestos para la adopción de técnicas experimentales en la sintaxis generativa: (i) que este tipo de experimento provee una mejor herramienta de medición, y (ii) que las técnicas informales son una herramienta en la que no se puede confiar. Mientras que (i) es relativamente aceptado, el segundo argumento ha sido objeto de un considerable debate debido a que sugiere que los datos utilizados para construir las actuales versiones de la teoría generativa son falsos. Para investigar esta cuestión, testeamos los 469 tipos de dato que aparecen en un popular manual de sintaxis generativa [Core Syntax, de Adger (2003)] con 440 participantes, utilizando estimaciones de magnitud, tareas de si-no y tres tipos distintos de análisis estadístico. El estudio sugiere que la tasa de error máxima para los resultados aportados informalmente es del 2%, o para ponerlo de otra forma, que la base empírica de la teoría sintáctica generativa es al menos un 98% replicable con experimentos formales. Estos resultados sugieren (i) que el uso extenso de juicios recolectados informalmente en la sintaxis generativa no ha llevado a construir teorías basadas en datos falsos, y (ii) que si bien existen muchos motivos para que los sintactistas generativos adopten metodología experimental más formal, la inadecuación de la base empírica de la teoría no es una de ellos.

A quien le interese, el trabajo de Sprouse y Almeida puede descargarse desde aquí.

3 comentarios

  1. Estupendo comentario, Joel.

    Los trabajos de Sprouse han reanimado las discusiones sonbre el perfil técnico a un conjunto de intuiciones que han venido desarrollándose desde el comienzo de la gramática generativa. Recomiendo también:

    http://www.socsci.uci.edu/~jsprouse/papers/7_Sprouse.pdf

    Y por supuesto, su tesis:

    http://drum.lib.umd.edu/bitstream/1903/7283/1/umi-umd-4684.pdf

    Y más evidencia en el mismo sentido de Sprouse:

    http://www.ling.umd.edu/~colin/research/papers/phillips2008_jk17.pdf

    Un tema crucial y muy interesante, sobre el que se dicen muchas falsedades.


  2. Corrijo: “Estupendo comentario, Carlos”
    Me disculpo por el error en el nombre.


  3. Este semestre doy una clase graduada de metodos de investigacion. En mi muy humilde opinion hay otros trabajos que muestran que el tiempo de reaccion al dar un juicio si es relevante y que la metodologia no experimental si bien no es totalmente inadecuada no es necesariamente la mejor. Hay muchos peligros mas en el uso de una metodologia no estandarizada. Sugiero esta referencia:
    Baden, M. and J Haussler.2010. Toward a model of grammaticality judgments. J. Linguistics 46 273–330.
    Y por supuesto los trabajos de Colin Phillips sobre el tema.



Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

A %d blogueros les gusta esto: