h1

Curso: Bases experimentales y teóricas para el estudio del procesamiento del lenguaje

21 mayo 2014

10264687_465717376896692_203776068089008570_n

 

DOCENTES

  • Lic. Carolina Gattei (Grupo de Lingüística, INCIHUSA, CCT Mendoza)
  • Dr. Luis Paris (Grupo de Lingüística, INCIHUSA, CCT Mendoza)
  • Lic. Ángel Tabullo (Grupo de Lingüística, INCIHUSA, CCT Mendoza)
  • Dr. Alejandro Wainselboim (Grupo de Lingüística, INCIHUSA, CCT Mendoza)

CONTENIDOS

  • Metodología de investigación en psicolingüística. Protocolos experimentales más utilizados. Neuroimágenes y lenguaje (RMf, PET/SPECT; NIRS.
  • Potenciales Evocados (ERPs) en experimentos de Lenguaje: N400; P600 y ELAN. Posibles significados funcionales de los ERPs.
  • Análisis y estadística de datos comportamentales. Estadística y procesamiento de datos electrofisiológicos con EEGLAB: del EEG al ERP.
  • Expectativa y predicción durante el procesamiento del lenguaje: protocolos y resultados experimentales. Aprendizaje estadístico e inferencial a nivel formal y estructural. Probabilidad condicional y lenguaje. Medidas de expectativa utilizadas experimentalmente: Cloze, Entropía y surprisal.
  • Interfaz Sintáctico-semántica. Bases de lingüística teórica: Jerarquías sintácticas y semánticas. Resultados experimentales en psicolingüística: Efectos del movimiento (“scrambling”). Protocolos de “self-paced reading task” y “eyetracking” (seguimiento ocular).
  • Perspectivas recientes en el estudio del procesamiento del lenguaje. ¿Cuál es el rol funcional del área de Broca? La “unificación” como proceso en el lenguaje y otros dominios cognitivos.

MODALIDAD

  • Curso teórico-práctico con registros experimentales en laboratorio.

NIVEL

  • Estudiantes de posgrado y estudiantes de grado avanzados.

FECHAS Y CARGA HORARIA

  • Fecha del curso: 28 de Julio al 1 de Agosto. Tendrá una duración de 30 horas.

MODO DE EVALUACIÓN

  • Evaluación final escrita con puntaje numérico.

ARANCEL

  • Becarios doctorales de CCT CONICET Mendoza y alumnos del posgrado avalante: $ 400
  • Otros alumnos:$ 500

LUGAR DE REALIZACIÓN DEL CURSO

  • CCT CONICET Mendoza, Sede CRICYT, Av. Ruiz Leal s/n, 5500 Mendoza, Argentina.

PREINSCRIPCIONES

  • Del 12 de mayo al 2 de Junio. Enviar curriculum vitae (máximo 3 páginas) y formulario de inscripción a Susana Godoy. La selección de los alumnos preincriptos será realizada en base a los antecedentes presentados una vez cerrada la inscripción.
h1

Dos videos recientes de Chomsky

19 abril 2014

Comparto dos videos bastante recientes de Noam Chomsky. En el primero se abordan temas varios (e.g. política, medios, lingüística) a partir de preguntas elegidas por los usuarios de Google. El segundo es bastante más específico: teoría sintáctica pura y dura.

Con respecto a este segundo video me molestaron varias observaciones de Chomsky. Creo que la más molesta es la afirmación acerca de la no-existencia de operaciones como Copy o Remerge.

¿Qué?

Vayamos por partes. Para explicar el fenómeno de desplazamiento de las lenguas naturales (e.g. Juan lee el libro vs. El libro, lee Juan), la mayor parte de los modelos que siguen el Programa Minimalista asume que la información acerca de dónde se pronuncia e interpreta un constituyente debe estar presente en una única representación de carácter sintáctico. Esto puede hacerse de dos maneras: (i) asumiendo que varias instancias de un mismo constituyente se ensamblan en una derivación (i.e. copias. Véase Nunes 2004 para mayores detalles) o (ii) suponiendo que un mismo constituyente puede estar dominado por más de un nodo sintáctico (i.e. multidominancia. Véase Gärtner 1997 entre varios otros). Ambas opciones teóricas hacen uso de dos operaciones diferentes, las ya mencionadas Copy y Remerge, respectivamente. Bien, Chomsky niega ambas. Lo que dice es que “lo único que existe es Merge” (la operación combinatoria mínima). No entiendo el sentido de esta afirmación. Sobre todo cuando el propio Chomsky distingue entre dos instancias de Merge, Interno y Externo. Pensémoslo así: una de las ventajas de los sistemas de multidominancia es que prescinden de la operación Copy, tal como parece querer hacer Chomsky. Entonces, ¿cuál es la diferencia entre Merge Interno y Remerge?  ¿La posibilidad de que existan relaciones de multidominancia? ¿El nombre? Y si Chomsky no piensa en términos de multidominancia, ¿cómo hace para descartar una operación, en ese caso, conceptualmente necesaria como Copy? ¿Y qué hacemos con los fenómenos de realización múltiple de copias, tan abundantemente reportados en la bibliografía?

En fin, sin más preámbulos, he aquí los videos.

h1

Sobre “On Recursion”

14 enero 2014

El ya clásico trabajo de Hauser, Chomsky y Fitch (2002) postula la diferencia entre los componentes del lenguaje que son comunes a más de un sistema cognitivo (Lenguaje en Sentido Amplio, LSA) y aquellos que son exclusivos de la Facultad Humana del Lenguaje (Lenguaje en Sentido Estricto, LSE). Como recordarán, el artículo propone como tesis que la única capacidad que forma parte del LSE es la Recursión. Curiosamente, tan importante propiedad no recibe definición alguna: el término “recursión” es mencionado 16 veces a lo largo del artículo, pero lo más cercano a una definición que se brinda es la sugerencia de que dicho mecanismo es el que habilita la infinitud discreta del lenguaje, “the capacity to generate an infinite range of expressions from a finite set of elements”. Esta falta de explicitud llevo a varios problemas y discusiones a lo largo de los años: a que se confunda la recursión con la posibilidad de tener subordinación, a que se diga que hay otras especies animales que tienen sistemas de comunicación recursivos, etc.

Felizmente, un paper reciente procura aclarar estas y otras confusiones al dar una definición explícita de RecursiónWatumull, Hauser, Roberts y Hornstein (2014) definen recursión a partir de tres principios: computabilidad (computability), inducción (induction) e irrestricción (unboundedness).

La computabilidad hace referencia al carácter intensional del LSE. Se trata de un procedimiento generativo de funcionamiento equiparable al de una Máquina de Turing:

In a stepwise process analogous to proof construction, the machine deterministically generates outputs (analogous to theorems) given inputs (which, with initial conditions, form a set analogous to axioms) by returning —recursing— intermediate results (analogous to lines or lemmas) according to its programmed rules.

La idea es bastante conocida, a pesar de la oscuridad aparente del párrafo citado: la sintaxis es una función computable que dado ciertos elementos (ítems léxicos) puede generar ciertos conjuntos de oraciones (e.g. la sintaxis del español genera el conjunto infinito de oraciones del español a partir del conjunto finito de ítems léxicos del español).

La inducción refiere a la estructuralidad de los outputs del LSE. Es una noción similar a la de recursión en el sentido de Gödel:

a number theoretic function φ is said to be recursive if there is a finite sequence of number-theoretic functions φ1, φ2, …, φn that ends with φ and has the property that every function φn of the sequence is recursively defined in terms of [...] preceding functions.

Este párrafo refiere a que la generación de una estructura sintáctica se da constituyente inmediato por constituyente inmediato. Cada uno de los sintagmas que componen una oración es el producto resultante de un mismo proceso generativo (en términos de Chomsky 1995, la operación Merge).

Por último, la noción de irrestricción pretende explicitar cómo debe ser entendida la idea de que una lengua es un conjunto infinito de oraciones. Algunos críticos (se me viene a la cabeza Postal, entre otros. Ver aquí) señalan que es absurdo decir que el lenguaje es un fenómeno de la mente-cerebro y sostener al mismo tiempo que el lenguaje puede generar infinitas oraciones: nadie puede generar infinitas oraciones. La respuesta es bastante simple: la naturaleza del LSE es intensional y finita, si bien el conjunto que define es infinito. En palabras de los autores: finite brains running in finite time literally do generate infinite sets.

Esta nueva definición tripartita de recursión, si bien no dice nada que no esté presente tácitamente en el razonamiento lingüístico general, promete generar bastante debate. Algo ya se está discutiendo en el post correspondiente del blog Faculty of Language.

 

h1

Esa aplicación de moda: what would I Say?

16 noviembre 2013

Como muchos sabrán, what would I say? es un una aplicación de Facebook que toma el historial de posteos de un usuario y genera posibles frases que podría llegar a decir ese usuario.

whatwould

Es divertido porque genera cosas que pueden ser consideradas “poéticas” (uso la palabra, aunque no comparto la idea: pobres poetas). Algunos ejemplos podrían ser:

vine de conocer un mensaje sarcástico

me vio en estado y quise al ferrocarril

Uno de los mayores problemas de ser lingüista es que uno tiene la rara tendencia de detenerse a pensar cómo funcionan estas cosas. Lo primero que pensé fue “hay que crear una cuenta de Facebook falsa, postear sólo dos oraciones (i.e., un par mínimo) y ver qué cosas puede generar a partir de eso”. (Sí, lo sé: soy un idiota). Como tampoco es que esto me obsesionaba demasiado, decidí no hacerlo.

Lo segundo que supuse fue “bueno, esta cosa claramente genera oraciones bastante aceptables, así que además de incluir un mecanismo de tipo markoviano (un robot que computa las relaciones de adyacencia entre las palabras) enriquecido con algún tipo de programita estadístico, también tiene que tener algún tipo de información sobre estructuras sintácticas recurrentes”. Esta segunda idea era más fácil de verificar: me puse a ver en los posteos de los bots de mis conocidos si era posible reconocer algún tipo de “molde general” para las oraciones. No encontré exactamente eso, pero me pareció ver ciertas regularidades: (i) casi no hay construcciones nominales mal formadas, (ii) casi todos los modificadores de tipo circunstancial (adjuntos) están mal usados, (iii) por lo general, los argumentos de los verbos son incorrectos en términos semánticos (e.g., *comer una casa, *ver una canción). A partir de estos datos (?), mi hipótesis fue que la aplicación tiene información sobre cómo reconocer el verbo de una oración y sus argumentos directos (i.e., sujeto y objeto). Esto es relativamente “fácil” para el inglés o el español que tienen un orden de palabras Sujeto-Verbo-Objeto. Los circunstanciales, en cambio, se reconocerían por el uso de comas. En definitiva, lo que haría el programa es combinar aleatoriamente cosas que reconoce como sujetos, objetos, verbos y circunstanciales. Dado que no hay una verdadera gramática detrás del programita (Chomsky demostró hace 60 años que los mecanismos markovianos son insuficientes como para capturar el fenómeno sintáctico), algunas oraciones mal formadas son esperables.

(Nótese que yo estaba sobreestimando muchísimo la precisión sintáctica de la aplicación. Esto se debe a que estaba omitiendo algo bastante evidente: que la gente postea sólo aquellos estados con oraciones más o menos bien formadas. Seguramente, hay muchos mensajes agramaticales generados por el programa que son descartados por los usuarios. En otras palabras, el mini corpus con el que trabajé estaba muy filtrado por auténticos hablantes).

Se me ocurrió, finalmente, ver si en alguna parte había información sobre el funcionamiento del programa (algo que debería habérseme ocurrido antes de hipotetizar cualquier cosa). Sus creadores son bastante explícitos con respecto al mecanismo utilizado:

Technically speaking, it trains a Markov Bot based on mixture model of bigram and unigram probabilities derived from your past post history.

Básicamente, lo que dice ahí es que el programa no tiene ningún tipo de información lingüística previa (como yo había supuesto erróneamente), sino que simplemente repite patrones recurrentes. Lo de unigram y bigram refiere a cuantas palabras por delante de la que se está computando registra el programa. Por ejemplo, para una frase como el lindo día y con respecto al artículo el, un unigrama registra la aparición de lindo delante de el, mientras que un bigrama registra la aparición del par ordenado <lindo, día> delante de el. En otras palabras, lo que hace el programa es aprenderse qué palabra o par de palabras usa un usuario después de una determinada palabra. Por ejemplo, el programa sabe que “casi todas las oraciones” empiezan por un artículo (e.g., “el libro que leí”, “las vacaciones te hacen bien”), por lo que seguramente empiece la oración con un artículo. Después del artículo, se fija cuál es la palabra o par de palabras que más frecuentemente aparecen en co-ocurrencia con ese artículo. Y así va generando frases, palabra a palabra. Es necesario, además, que el programita vaya armando lista de tipos de constituyentes que reconoce (el término técnico es clusters), para (i) no generar siempre las mismas oraciones y (ii) no tener que calcular toda la estadística de los patrones lingüísticos cada vez que se le pide que genere un nuevo posteo.

En fin, terminó resultando que el funcionamiento del programa era bastante aburrido desde un punto de vista lingüístico… Pero al menos no necesito escribir ningún tipo de conclusión para todo esto: tengo un viejo chiste de xkcd que resulta más que elocuente.

computational_linguists

h1

Curso sobre variación sintáctica en español

29 octubre 2013

El Instituto de Filología y Literaturas Hispánicas “Dr. Amado Alonso” tiene el agrado de anunciar el mini curso:

Sintaxis microparamétrica del español

Por el Profesor Francisco Ordóñez
(Universidad del Estado de New York, S.U.N.Y)

FECHAS
Martes 26 de noviembre: 17:00 a 19:00hs
Jueves 28 de noviembre: 17:00 a 19:00hs
Viernes 29 de noviembre: 17:00 a 19:00hs

LUGAR
25 de Mayo 217, primer piso
Ciudad Autónoma de Buenos Aires

Inscripción previa requerida (sin arancel)
al_saab75 @ yahoo.com.ar

Francisco Ordóñez es Profesor Asociado [Associate Professor] en la Universidad del Estado de Nueva York (S.U.N.Y) en Stony Brook. Finalizó sus estudios doctorales en la Universidad de la Ciudad de Nueva York (C.U.N.Y) en 1997 bajo la supervisión de Richard Kayne. El profesor Ordóñez se dedica fundamentalmente a temas de sintaxis comparativa del español, el catalán y otras lenguas románicas. Ha publicado el libro Word order and clausal structure of Spanish: A comparative view (Garland: 2000) y co-editado dos vólumenes: Affix and clitic combinations (Benjamins: 2005) y Linguistic theory and language development in hispanic languages (Cascadilla Press:2003). Ha publicado también en numerosas revistas de la especialidad tales como Natural Language and Linguistic Theory, Lingua, Probus y Journal of Catalan Linguistics. Actualmente, está interesado en la comparación de los dialectos del español americano. Por tal motivo, es co-coordinador de los encuentros Romania Nova que se llevan a cabo regularmente desde 2005. Además, está estudiando los sistemas de clíticos a través de las lenguas románicas, especialmente, las variedades habladas en las Islas Baleares, del sur de Francia y del sur de Italia.

Página web de Francisco Ordoñez.

Se entregarán certificados de asistencia.
h1

Un blues en memoria de Ivan Sag

2 octubre 2013

Si bien nunca trabajé en el marco de HPSG (y, más bien, soy crítico con respecto a varios aspectos de ese formalismo), nadie puede negar que Ivan Sag, fallecido el mes pasado, fue uno de los grandes genios de la teoría sintáctica moderna.

Todavía en vida (Sag está en el teclado), varios de sus colegas le dedicaron el siguiente blues titulado The HPSG Man. La letra está a continuación del video. La canción lo dice todo: he’s the HPSG man, everybody knows it’s him.

The gypsy woman told his mama
Before he was born,
You got a boy child’s comin’
He’s gonna be a son of a gun,
He gonna make them linguisticians
Jump and shout,
Then the world gonna know
Exactly what it’s all about.
Cause it’s him,
Everybody knows it’s him,
He’s the HPSG man
Everybody knows it’s him.

He’s got structures full of features,
He’s got bind and he’s got slash,
He’s got signs and he’s got synsems,
He’s gonna unify your ass,
He can process your construction
Any time he gets the urge,
But he don’t do derivation
And he don’t do move or merge,
But you know it’s him
Everybody knows it’s him,
He’s the HPSG man
Everybody knows it’s him.

On the seventh hour
Of the seventh day
Of the seventh month
The seven provosts say
We gotta get that boy some tenure
We gotta get that boy a chair
We gotta get that boy a glass of wine,
Lord, we got to keep him here
Cause it’s him
Everybody knows it’s him,
He’s the HPSG man,
Everybody knows it’s him.

Coda:
On the seventh hour
Of the seventh day
Of the seventh month
The seven provosts say,
He’s a thinker, he’s a lover,
And this you can tell,
He’s got seven hundred friends here
Who have come to wish him well.
Cause it’s him,
Everybody knows it’s him,
He’s the HPSG man,
Everybody knows it’s him.

h1

Nueva publicación

29 agosto 2013

Guillermo Lorenzo acaba de terminar un nuevo libro titulado Biolingüística: la nueva síntesis y lo subió a internet para su libre descarga. Se puede acceder al libro desde aquí.

 

CONTENIDO DE LA OBRA

Presentación y agradecimientos

Introducción

Capítulo 1. ¿De dónde viene la biolingüística?

  • Breve apunte sobre la historia reciente de la biolingüística
  • Historia profunda: las raíces racionalistas del enfoque biolingüístico
  • Primera parte: Explorando el lenguaje en sentido estricto

Capítulo 2. La cuestión fundamental de la biolingüística

  • La infinitud como especificidad biológica del lenguaje
  • La infinitud del lenguaje y la finitud del cerebro: ¿son biológicamente conciliables?
  • Una idea clave: la naturalización del concepto de computación
  • La posición del nivel computacional en la explicación biológica del lenguaje

Capítulo 3. Caracterización del Sistema Computacional Humano (SCH)

  • La complejidad del lenguaje (1): las reglas insensibles al contexto
  • La complejidad del lenguaje (2): las reglas sensibles al contexto
  • Una conclusión crucial: la equivalencia de SCH con un autómata de pila incrementado

Capítulo 4. ¿Es SCH específicamente lingüístico y específicamente humano?

  • La cuestión de la infinitud en el marco de la cognición humana
  • La cuestión de la infinitud en el marco de la cognición no humana
  • ¿Dónde nos deja el debate sobre la especificidad biológica del lenguaje?

Capítulo 5. El concepto de Facultad del Lenguaje en sentido Estricto

  • ¿Existe un Sistema de Computación Animal?
  • Tres conceptos fundamentales: homología computacional, homología profunda y morfoespacio
  • Mejor Sistema Computacional Humano que Facultad del Lenguaje en sentido Estricto: ¿Por qué?

Capítulo 6. La cuestión del léxico

  • ¿Qué hace al léxico especial?
  • El carácter desplazado y compositivo del léxico
  • Una cuestión crítica sobre la relación entre el sistema de computación y el léxico
  • Conclusión final sobre la excepcionalidad del léxico

Segunda parte: Explorando el lenguaje en sentido amplio

Capítulo 7. El lenguaje y los sistemas de pensamiento

  • El lenguaje y el pensamiento conceptual-intencional
  • Propiedades lingüísticas del pensamiento humano
  • Continuidad entre el pensamiento humano y el pensamiento animal
  • Conclusión

Capítulo 8. El lenguaje y los sistemas sensomotrices

  • La posición de la fonología en un modelo representacional del lenguaje y la mente
  • ¿Es la fonología específicamente humana?
  • ¿Es la fonología humana específicamente humana?
  • Conclusión (y una cuestión abierta)

Capítulo 9. La tesis de la asimetría entre los sistemas externos

  • La Facultad del Lenguaje no es un sistema de comunicación
  • La vía evolutiva (¿de última hora?) hacia la exteriorización
  • ¿Conclusión?

Capítulo 10. Consideraciones finales sobre el concepto de Facultad del Lenguaje en sentido amplio (FLA)

  • La posición del lenguaje en la mente
  • El lugar del lenguaje en la naturaleza
  • Conclusiones

Capítulo 11. El impacto de la biolingüística en la compresión científica del lenguaje

  • El impacto conceptual: los varios conceptos de “lenguaje” (o las necesarias especializaciones de la lingüística)
  • El impacto sobre la comprensión del desarrollo del lenguaje en el individuo
  • Un paso más allá: ¿hacia una física del lenguaje?

 

Gracias a Victor Longa por el dato.
Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.