En forma concreta y directa podemos decir que el objeto de la evaluación son las capacidades y actitudes, pero también sus procesos de desarrollo; en consecuencia, para realizar una evaluación óptima debemos tener en claro que es una competencia y cuáles son sus componentes:
Competencia:
Es el conjunto de habilidades, conocimientos y actitudes que hacen posible la actuación autónoma y eficiente de la persona en diversas situaciones de interacción con su entorno. La competencia está vertebrada por el “hacer”, fundamentado en un “saber” y con conciencia humana de ello “ser”. Como se expresó anteriormente es un saber hacer con capacidad técnica y ética.
Capacidades:
Potencialidades inherentes a la persona que se pueden desarrollar a lo largo de la vida, se cimientan en la interrelación de procesos cognitivos, socio afectivos y motores. Comprenden los contenidos conceptuales y procedimentales.
Contenidos conceptuales: Se refiere a la adquisición de hechos y datos; conceptos, principios y teorías que forman parte del conocimiento científico de cada componente del currículo y que muy bien desarrollan los docentes en sus diferentes disciplinas. Los aprendizajes logrados por los estudiantes en este ámbito son importantes para que puedan aplicarlos óptimamente en la solución de problemas y casos concretos vinculados a su profesión.
Contenidos procedimentales: La centralidad de la compentencia se encuentra en el actuar de la persona para solucionar problemas (hacer) en distintas situaciones y contextos. Hacen referencia despliegue de habilidades, destrezas, técnicas, algoritmos y estrategias. Se trata de conocimientos referidos al saber hacer cosas o saber como se hacen las cosas a través de acciones ordenadas para llegar a objetivos o metas y satisfacer propósitos y nuevos aprendizajes alcanzando su mayor nivel en la transferencia del aprendizaje.
Actitudes:
Formas de actuar, desmostraciones del sentir, tendencias, disposiciones adquiridas relativamente duraderas que poseen componentes cognitivos como los conocimientos y las creencias, afectivos como los sentimientos y las preferencias y conductuales como las acciones manifiestas la declaración de intenciones y que se aprenden significativamente.
Estas tendencias evalúan de un modo determinado objetos, personas, sucesos y situaciones y actúan en consonancia con esta evaluación y se desarrollan en forma transversal a todas la áreas.
Son propios al desarrollo de valores y actitudes estrechamente vinculado a las proyecciones éticas del conocimiento de sus aplicaciones técnicas o de otro uso, ncesarias para el desempeño de la persona en un contexto determinado.
Para definir bien el objeto de evaluación también debemos tener en cuenta que:
- Para la evaluación de contenidos conceptuales es recomendable observar, durante el desarrollo de las actividades, el grado de manejo y procesamiento de la información de los estudiantes, atendiendo sobre todo si usan sus propias palabras, si seleccionan contenidos teóricos relevantes, si exponen conceptos utilizando ejemplos ilustrativos y si hacen uso eficaz de la información que disponen para resolver problemas.
Si lo que les interesa es saber si los alumnos son capaces de recordar datos, nombres, títulos, fechas, etc. la actividad más propicia para valorar lo que saben será a través de preguntas orales o pruebas gráficas sencillas que permitan recoger la información.
Se debe recordar que la evaluación de conceptos es limitada, siempre es posible tener un conocimiento más profundo y elaborado; aquí se encuentra la dificultad de su evaluación. En este caso las actividades que puedan garantizar un mejor conocimiento de lo que el alumno sabe, puede ser: la observación del uso de cada uno de los conceptos en diversas situaciones, las explicaciones espontáneas, la resolución de conflictos o problemas a partir del uso de conceptos.
- Para la evaluación de contenidos procedimentales es muy importante observar el despliegue de habilidades, destrezas y estrategias en diversas situaciones similares entre sí o totalmente nuevas. Se trata de evitar la automatización y promover la selección de procedimientos adecuados según el tipo de actividades. Por eso la mejor forma de evaluar este tipo de contenidos es a través de actividades problemáticas en donde el alumno manifieste la capacidad adquirida.
Estos contenidos, implican el saber hacer y el conocimiento acerca del dominio de este saber hacer. Al evaluarlo debemos recordar que lo que define su aprendizaje no es el conocimiento que se tiene de el, sino el hecho de llevarlo a la práctica.
Lo que se pide en todos los casos es la capacidad de uso del conocimiento, por ello se sugieren actividades abiertas que permitan la observación sistemática del docente para ver como sus alumnos trasladan a la practica los conocimientos.
- Para la evaluación de actitudes es importante identificar, dentro de las actividades de aprendizaje, la calidad de las interacciones de los estudiantes. Es decir, comportamientos espontáneamente constructivos, generosos, perseverantes, dignos, respetuosos, autónomos, tolerantes, decididos, creativos, etc.
Teniendo las actitudes tres componentes: cognitivo, conductual y afectivo, resulta complejo determinar el desarrollo de actitudes en cada alumno. El problema de la evaluación de las actitudes no radica en la dificultad de expresión del conocimiento, sino en la dificultad de la adquisición del mismo. Se debe generar suficientes situaciones conflictivas que permitan la observación sistemática del comportamiento de los estudiantes y la observación de sus opiniones y actuaciones en las actividades grupales, en los debates, asambleas, en las salidas, trabajos de campo, excursiones, durante el descanso, actividades deportivas, etc
CRITERIOS E INDICADORES DE LA EVALUACIÓN DE LOS APRENDIZAJES
CRITERIOS
El criterio de evaluación es el punto de referencia con que comparamos los datos recogidos en la “medición”. La comparación se establece con respecto a un modelo general o a un marco de referencia externo que específica las características que ha de reunir el objeto evaluado para ser valorado positivamente. Ese marco externo es el “criterio”. Las competencias son el criterio principal a utilizar en la evaluación: las competencias configuran el producto que se pretende lograr. Lo que yo hago en la evaluación, si utilizo el criterio es, comparar los resultados logrados con las competencias previstas (criterio).
Finalmente podemos decir que los criterios de evaluación (competencias, capacidades, conocimientos, habilidades y actitudes), deben entenderse como principios orientadores, pautas o puntos de referencia para evaluar el proceso de aprendizaje y desarrollo de los estudiantes.
INDICADORES DE LOGRO
Los indicadores de evaluación de los aprendizajes son enunciados que describen indicios, pistas observables del desempeño de los estudiantes, que dan cuenta externamente de lo que está sucediendo internamente (en el educando) y que exige una comprensión e interpretación pedagógica de parte del docente.
Son como una ventana o un mirador a través del cual se puedan apreciar y evidenciar con claridad lo que los estudiantes saben o hacen respecto a un determinado criterio de evaluación (competencias, capacidades y actitudes)
Los indicadores operativizan el criterio de evaluación.
Estructura de un indicador de evaluación
Los indicadores de evaluación tienen generalmente los siguientes elementos:
- Una acción o conducta expresada por un verbo en tercera persona en singular.
- Un contenido al que hace referencia la acción del verbo. Responde a la pregunta ¿qué es lo que... (más la acción expresada por el verbo)?
- Las condiciones de ejecución.
Ejemplo:
Consideraciones al elaborar indicadores
- Deben ser expresados en forma clara y precisa.
- Deben ser específicos y contextualizados (pertinentes con la realidad en la cual actúan)
PROCEDMIENTOS PARA EVALUAR LOS PROCESOS DE APRENDIZAJE
- Analizar la competencia que se va a trabajar
Toda competencia tiene dos componentes básicos:
- La acción es lo que el educando va a hacer.
- El límite es el contenido general de la competencia, es decir, hasta donde puede abarcar el aprendizaje de esa competencia.
-
Seleccionar y analizar la capacidad que se va a trabajar (en relación a la competencia) para determinar si es conceptual, procedimental o actitudinal.
Al hacer este análisis se puede modificar o fusionar la capacidad o también se puede agregar nuevas capacidades coherentes en la competencia.
-
Formular indicadores de logro para cada capacidad, los cuales tendrán relación coherente entre la competencia y las actividades de aprendizaje.
-
Seleccionar los instrumentos de evaluación donde se registran los logros alcanzados.
-
Toma de decisiones, significa que el docente interviene para mejorar, profundizar aprendizajes y subsanar deficiencias del proceso de enseñanza.
-
Información, la que debe ser entregada oportunamente.
EVALUACIÓN POR COMPETENCIAS EN EDUCACIÓN Y EN CIENCIAS DE LA SALUD
DR. JUAN A. DÍAZ PLASENCIA, DR. EDGAR YAN QUIRÓZ
INTRODUCCIÓN
El rol cambiante de las profesiones en la sociedad y una mayor expectativa centrada en el desempeño ha conducido a un cambio en el contenido y la proyección de los currículos. La enseñanza está llegando a ser más centrada en el estudiante, con énfasis en el aprendizaje activo antes que en la adquisición pasiva de conocimientos y en la evaluación de la competencia antes que en la capacidad de retener y recordar hechos no relacionados. Los programas educacionales rígidos están dando paso a aquellos más adaptables y flexibles, en los cuales la retroalimentación del estudiante tiene un rol cada vez más importante. La implementación de una innovación sostenida en la educación continúa presentando desafíos y se hace necesario un sistema de alta calidad, de evolución continua, para de esta manera también asegurar la oferta continua de un profesional de alta calidad.
Las facultades conducen evaluaciones para certificar la competencia de los futuros profesionales, discriminan entre candidatos para entrenamiento avanzado, direccionan el aprendizaje y juzgan la adecuación de los programas de entrenamiento. Sin embargo, no hay una definición consensuada acerca de la competencia que abarque todos los dominios importantes de la práctica profesional.
Una vez definido el perfil del profesional, cuáles son las áreas en las que debe realizar actividades y cuales son los conocimientos, habilidades y actitudes que debe mantener a lo largo del tiempo, se plantea como evaluar, como garantizar a la sociedad que el profesional es competente. Resulta evidente que “ser un buen profesional” es mucho más que tener muchos conocimientos de la carrera por lo que en los últimos años hay una tendencia internacional a desarrollar instrumentos evaluativos que permitan medir, conocer y predecir la capacidad del profesional para la práctica.
La evaluación periódica de la competencia permitiría garantizar un nivel óptimo para el desempeño de la profesión, detectar niveles peligrosos de práctica y produciría una retroalimentación sobre los contenidos del currículo, todo ello claramente beneficioso tanto para los profesionales como para la sociedad. Existe pues un reto que responde a una necesidad.
Las preguntas de elección múltiple, ensayos y exámenes orales pueden ser instrumentos usados para evaluar conocimiento factual y aplicado, pero se necesitan técnicas más sofisticadas para evaluar la competencia. La evaluación en la educación necesita el desarrollo de mediciones confiables de la competencia del estudiante que también tengan valor predictivo, así como también un rol formativo y educacional. Pero hay algo más: hay interés por los instrumentos de evaluación que se asemejen a la práctica real, que permitan reflejar o predecir lo más fielmente posible qué comportamiento profesional tiene o va a tener la persona que se evalúa. Por ello es, importante que abarquen no sólo conocimientos, sino también habilidades y actitudes. Por ejemplo en medicina el Examen Clínico Objetivo Estructurado (ECOE) ha sido adoptado ampliamente como una técnica que permite evaluar las competencias de los estudiantes en diferentes materias. Cuándo es usado correctamente, el ECOE puede ser altamente eficaz para evaluar competencias en medicina y la técnica tiene muchas ventajas sobre los tradicionales. La evaluación debe estar relacionada con los objetivos del curso y el ECOE puede cubrir, por ejemplo, métodos clínicos, dominio de procedimientos prácticos, razonamiento clínico, solución de problemas e interpretación de datos de laboratorio.
Tipos de evaluación.
La evaluación es una cuestión nuclear y determinante en la educación y en las actividades de enseñanza - aprendizaje, hasta el punto que del modelo de evaluación aplicado en la práctica depende en gran medida el resto de los planteamientos de la actividad docente y de los alumnos. En realidad, en la práctica, los estudiantes se sienten recargados de trabajo y responden estudiando sólo las partes del curso en que son evaluados. Ha sido sugerido que debería haber dos sistemas de evaluación claramente separados: un sistema de aprendizaje formativo y un sistema de certificación sumativo. Los exámenes que tienen ambas funciones, formativa y sumativa, son difíciles de diseñar.
Para promover el aprendizaje, la evaluación debería ser educativa y formativa, es decir los estudiantes deberían aprender de los exámenes y recibir retroalimentación sobre la que construyan sus conocimientos y destrezas. Las evaluaciones formativas permiten que los estudiantes detecten deficiencias en un estadio precoz y fomenten alguna forma de acción correctiva. De esta manera los estudiantes son socializados hacia el rol de “aprendices adultos”.Tales evaluaciones formativas deberán ser de bajo costo, similares a las evaluaciones que son usadas para la graduación en algunos países, sin rol punitivo y sus resultados deberían estar disponibles en un corto periodo de tiempo.Además la evaluación también necesita tener una función sumativa para asegurar a la sociedad y a los entes reguladores de la profesión que los graduados son competentes. No obstante si la evaluación se enfoca solamente en la certificación y exclusión se perderá toda la influencia que tiene en el proceso de aprendizaje.
Cada evaluación es válida en el contexto en que se aplica. Las evaluaciones sumativas usadas de manera exclusiva o privilegiada son inadecuadas debido a que ellas promueven invariablemente el aprendizaje tanto superficial como fuera de contexto. Su reemplazo por evaluaciones formativas construidas de manera juiciosa debería ayudar a desmantelar el enfoque “salto de vallas” de la educación que ha sido tan prevalente en las facultades y el número y duración de las evaluaciones sumativas deberían ser mantenidas al mínimo requerido para otorgar confianza al resultado final.
Desde hace mucho tiempo, tal vez desde la creación de las universidades, las formas de evaluación posibles en la enseñanza superior se redujeron a una: el examen final. Se arguye, sin embargo, que existe la necesidad de un examen final al término de cada curso como un evento ritual y simbólico que actúa como un rito de aprobación. De manera similar, dividir el currículum en años calendarios es una herramienta administrativa que puede no estar acorde con los objetivos educacionales y, por consiguiente, los exámenes no deben convertirse en un proceso automático al final de cada año. Sobre esto se han hecho numerosas y muy serias críticas; sin embargo, las cosas siguen como siempre, estáticas, con el agravante de las fricciones al no existir una evaluación integral, justa y objetiva. Se finge que se examina bien, concienzudamente, con seriedad. Poco importan los factores psicológicos, fisiológicos y sociales que inciden en ciertas formas del fracaso y la competencia.
El docente, constreñido por una reglamentación casi siempre anacrónica, no se atreve a modificar la forma de evaluación vigente. El examen, tal cual se practica desde hace siglos en los diversos niveles de la enseñanza, no es más que una de las diversas formas posibles de evaluar, la más tradicional y supuestamente la más objetiva en el sentido de la confrontación que por lo demás, en la práctica, casi nunca se ejerce. Los docentes más flexibles y democráticos en la conducción del aprendizaje han venido aplicando diversos modelos de evaluación, sustentados en principios epistemológicos de validez probada: la integridad y la transformación dialéctica del conocimiento.
En las universidades, el examen ha ocupado desde su creación un espacio prioritario. La evaluación o la mera apreciación de los aprendizajes, reales o supuestos, sigue siendo, a nuestro juicio, un elemento clave en el accionar de las instituciones educativas, incluidas las del tercer nivel, universitarias y no universitarias. ¿Qué hacer? ¿Cómo hacer? Si bien parece que no existe una forma única, placentera y de validez universal, que permita dar cuenta del quehacer institucional global, reflejado en el sujeto de la educación, cabe preguntarse por la vigencia o no de las acciones parciales que se destinan a averiguar los resultados del proceso de aprendizaje, proceso realizado en ciertas condiciones, durante cierto tiempo, a partir de “un programa” destinado a cumplir ciertos fines.
En ese sentido, ¿qué hacemos en realidad? ¿Evaluamos o apreciamos, medimos o estimamos, somos objetivos o subjetivos, tenemos claro lo que estamos haciendo? Con examen o sin él, ¿apreciamos o evaluamos?. Todavía más la dimensión subjetiva que adquiere ese proceso, ¿debemos tomarla en cuenta?
Los resultados de este seminario al correlacionar y analizar la confiabilidad y validez de las diferentes técnicas e instrumentos de evaluación pueden servir de base para realizar investigación educacional y de esa manera contribuir a: estandarizar el sistema de evaluación en las facultades ; mejorar los estándares de calidad de la evaluación del proceso enseñanza - aprendizaje; fomentar el cambio de una evaluación que desarrolle la cultura de la calidad; promover la innovación educativa sobre la base de no sólo el resultado sino también del proceso, que se autoperfeccione, y estimule no sólo la autoevaluación, sino la evaluación grupal; que ésta no solo sirva para certificar o acreditar, sino también sea formadora y reguladora de los sujetos que en ella intervienen; que se utilicen diversas fuentes de información, a fin que haya un equilibrio entre las técnicas cualitativas y cuantitativas. Cuando se haya acercado a ello se estará en presencia de una evaluación más justa e integral que pone de manifiesto lo que se ha alcanzado en el desarrollo de la asignatura y así los resultados se aproximarán más a las tareas o a la profesión que desempeñará el estudiante una vez graduado.
Aspectos generales sobre evaluación.
1. Definición de evaluación
La evaluación como “juicio de expertos” implica asignar o dar valor a algo por medio de un juicio valorativo. Al emitir un juicio de carácter valorativo, siempre están presentes dos puntos: un parámetro de referencia y el otro de información; y es la persona que evalúa la que se considera el “experto” para definir el parámetro de comparación y definir la fuente de la información.
Las críticas que se formularon a la concepción anterior, permitió el surgimiento de la evaluación como sinónimo de medición en la que se intentó eliminar el aspecto subjetivo de la evaluación a partir de la aplicación de instrumentos de evaluación válidos y confiables. Esto hizo que se pusiera énfasis en los instrumentos, descuidando otros aspectos importantes de la evaluación por ejemplo, el juicio de valor y los objetivos del proceso como parámetros fundamentales.
Aquí surge un aspecto que no había sido tomado en cuenta en las anteriores concepciones: los objetivos. Esta nueva concepción busca confrontar los objetivos propuestos con los logros y resultados obtenidos (evaluación como congruencia entre objetivos y logros). El aspecto que destaca esta concepción, es la importancia de la precisión y claridad de los objetivos del proceso para que se tenga un parámetro de referencia explícito en la evaluación educativa.
La evaluación como un proceso de delineamiento y uso de información ha sido definida como “el proceso de delinear, obtener y proveer información útil para juzgar alternativas de decisión”. De esta concepción se rescata el hecho de que los juicios del proceso evaluativo sirven para la toma de decisiones que permitan realimentar y reajustar mediante decisiones adecuadas y acertadas el cumplimiento de los fines y objetivos del proceso educativo.
Entendida así la evaluación, cada concepción proporciona aportes que ayudan a unificar una nueva concepción evaluativa que expresa con precisión las ideas desarrolladas anteriormente: “Evaluar es básicamente un proceso de valoración, de emitir un juicio de valor en base a información y a un parámetro de referencia para la toma de decisiones”.
Se concibe el aprendizaje como un proceso de construcción de significados y de atribución de sentido con su propia dinámica, con sus progresos y dificultades, con sus bloqueos e incluso retrocesos, parece lógico concebir igualmente la enseñanza como un proceso de ayuda a la construcción que llevan a cabo los alumnos. La enseñanza eficaz, en una perspectiva constructivista, es la enseñanza que consigue ajustar el tipo y la intensidad de la ayuda proporcionada a las vicisitudes del proceso de construcción de significados que llevan a cabo los alumnos. La evaluación de la enseñanza, por tanto, no puede ni debe concebirse al margen de la evaluación del aprendizaje. Ignorar este principio equivale, por una parte, a condenar en gran medida la evaluación de la enseñanza a un ejercicio más o menos formal, y, por otra, a limitar el interés de la evaluación de los aprendizajes a su potencial utilidad para tomar decisiones de promoción, acreditación o titulación. Cuando evaluamos los aprendizajes que han realizado los alumnos, estamos también evaluando, se quiera o no, la enseñanza que se ha llevado a cabo. La evaluación nunca lo es, en sentido estricto, de la enseñanza o del aprendizaje, sino más bien de los procesos de enseñanza y aprendizaje.
Según Venturelli, la evaluación debe identificar todos los problemas y, dado su carácter formativo integral, debe claramente establecer con el evaluado lo que se debe modificar. Una falla en establecer este proceso implica una falla para con el estudiante (pero también para con el docente si se trata de una evaluación de un docente en la que los estudiantes no toman las mismas medidas que quieren sean tomadas con ellas). La evaluación formativa permite introducir cambios, es decir, hacer el diagnóstico de la situación o problema a tiempo y poder identificar los pasos para su corrección
2. La evaluación en el Marco Constructivista
Por lo general, en la evaluación psicoeducativa ha existido un desmesurado interés por los productos observables del aprendizaje, descuidando los procesos de elaboración o construcción que les dan origen . Ciertamente los productos observables (comportamentales), como consecuencia de la aplicación de los procesos constructivos de aprendizaje, son relevantes para las evaluaciones psicoeducativas. Sin embargo, debe redimensionarse el uso que se haga de ellos. Esto es, se debe preocupar en reconocer en qué medida pueden aportar información sobre el proceso de construcción que ocurrió y desembocó en ellos, y sobre la naturaleza de la organización y estructuración de las construcciones (representaciones, esquemas, modelos mentales) elaboradas. Es obvio que a las conductas que demuestran la ocurrencia de algún tipo de aprendizaje subyace todo un proceso de actividad constructiva (una serie de procesos y operaciones cognitivas) que finaliza en la elaboración de determinados tipos de representaciones (esquemas, significados, etc) sobre los contenidos curriculares.
Es así que, desde una perspectiva constructivista, es preciso que el profesor también procure focalizar la actividad evaluativa durante todo el proceso de construcción que desarrollan los alumnos; por ejemplo:
- La naturaleza de los conocimientos previos que posee.
- Estrategias cognitivas y metacognitivas que utiliza y/o el tipo de enfoque de procesamiento (superficial, estratégico o profundo) empleado.
- Las capacidades generales involucradas.
- El tipo de metas y patrones motivacionales que el aprendizaje persigue.
- Las atribuciones y expectativas que se plantea.
En particular, respecto a los productos finales de la construcción, debe ponerse una atención central en la valoración del grado de significatividad de los aprendizajes logrados por los alumnos.
El interés del profesor al evaluar los aprendizajes debe residir en:
- El grado en que los alumnos han construido, gracias a la ayuda pedagógica recibida y al uso de sus propios recursos cognitivos, interpretaciones significativas y valiosas de los contenidos revisados.
- El grado en que los alumnos han sido capaces de atribuirle un sentido funcional (no sólo instrumental, también en relación a la utilidad que estos aprendizajes puedan tener para otros futuros) a dichas interpretaciones.
Al valorar el grado de significatividad hay que tener presente:
- El aprender significativamente es una actividad progresiva que puede valorarse cualitativa y cuantitativamente.
- Es necesario tener una cierta claridad sobre el grado y modo de significatividad con que se requiere que se aprenda algo, expresado con claridad en los objetivos educacionales.
-
Por último es necesario plantear y seleccionar de forma estratégica y correcta las tareas o instrumentos de evaluación pertinentes que proporcionen información valiosa en tal sentido.
Pero a partir de ello ¿qué es lo que se debe observar? Como expresan Coll y Martín, el grado de extensión o amplitud y el nivel de complejidad con que se han elaborado los significados o los esquemas en la mente del alumno, gracias a la ayuda del docente.
El aprendizaje no es, como muchos profesores de ciencia continúan pensando, el resultado de un simple proceso de transmisión y recepción. Diferente a los efectos de la luz en la película, no es el resultado de la impresión dejada en las mentes por el estímulo sensorial de la educación. A la luz de este fracaso repetido del modelo pedagógico y los límites del modelo conductista, varios modelos constructivistas han sido desarrollados durante los últimos 50 años . Todos ellos empezaron con el principio que los individuos poseen su propia manera de pensar y aún su propio “sentido común”. La organización del aprendizaje, la adquisición de conocimiento proceden fundamentalmente de la actividad por parte del sujeto. El aprendizaje se convierte así en una capacidad para la acción verbal o material simbólica efectiva, relacionada a la existencia de instrucciones mentales que provienen de la acción repetitiva de la conducta. Entre ellas, aquellas que consisten de realidades representativas, reconstruyéndolas y combinándolas en el pensamiento, juegan un rol fundamental.
Piaget también supone que los “sujetos” procesan nueva información de acuerdo al conocimiento previamente adquirido. Ellos lo “asimilan”, y en respuesta, la “acomodación” llega a ser necesaria. El resultado es una transformación del conocimiento inicial con relación a las nuevas circunstancias. Para él, es una cuestión de enlazar la nueva información que es ya conocida tomando en consideración los “bosquejos” en la disposición de los sujetos.
Si se parte de las ideas de Ausubel, por profundidad y complejidad de los aprendizajes debe entenderse el grado de vinculación o interconexión semántica (cantidad y calidad de relaciones) existente entre los esquemas previos y el contenido nuevo que se ha de aprender, según los mecanismos de diferenciación progresiva y de integración inclusiva .
La información se almacena y estructura en la base de conocimientos (la memoria semántica), en forma de redes jerárquicas constituídas por esquemas o modelos mentales que establecen un mayor o menor grado de complejidad en sus interconexiones. Una base de conocimientos sobre un determinado dominio de saber, que tiene una mayor riqueza de significados (mayor número, integración y organización de esquemas: profundidad y complejidad) es el producto de múltiples experiencias de aprendizajes significativos en ese dominio. Esta base de conocimientos poseerá un alto nivel de organización y permitirá al mismo tiempo un mejor almacenaje y una adecuada recuperación de la información cuando sea requerida. Pero sin duda lo más importante es que permitirá con un alto grado de probabilidad, una mayor cantidad de aprendizajes de este tipo en el dominio del que estemos hablando y en otros que le sean próximos.
3. Evaluación en el proceso enseñanza - aprendizaje.
El grado de profundidad y de complejidad, así como la potencialidad de lo aprendido, también se relacionan directamente con el nivel de comprensión metacognitiva alcanzado. De este modo, el aprendiz puede lograr aprendizajes significativos- y sabrá en qué grado los conoce-en qué y para qué contextos le son válidos, así como en qué momento podrá utilizarlos para aprendizajes novedosos o para la solución de problemas determinados.
Aquella exhortación que destaca la necesidad de que el profesor cuente con la mayor cantidad y diversidad posible de criterios, indicadores e instrumentos para estimar con mayor objetividad un objeto o proceso determinado, sigue validada para el caso de los aprendizajes significativos. Entre más información obtengamos por diversos medios sobre el proceso de construcción y el producto construido de aprendizajes significativos, se podrá estar más seguros de que se va ir rumbo al objetivo propuesto.
Es también muy importante insistir que entre el asunto de la enseñanza y la actividad evaluativa debe existir una profunda coherencia en aras de promover aprendizajes significativos.
Cómo señalan Coll y Martín el grado de control de responsabilidad que los alumnos alcanzan respecto al aprendizaje de algún contenido curricular enseñado intencionalmente (v.gr., conceptos, principios, explicaciones, habilidades, estrategias de aprendizaje, etc), puede considerarse como un criterio potente para evaluar el nivel de aprendizaje logrado sobre dicho contenido curricular.
Hay que tener siempre presente que la naturaleza de los contenidos y las características del aprendiz determinarán en gran medida el curso de todo el proceso de traspaso de control y responsabilidad mencionados.
Los instrumentos de evaluación le proporcionan al docente información importante sobre la utilidad o eficacia de las estrategias de enseñanza propuestas en clase. No hay que olvidar que desde el marco constructivista, la enseñanza debe entenderse como una ayuda ajustada y necesaria a los procesos de construcción que realizan los alumnos sobre los contenidos programados como una condición sine qua non para proporcionar la ayuda correspondiente.
Dado que las aportaciones curriculares que se proveen en el contexto educativo pueden ser de distinta naturaleza (v. gr., conceptual, procedimental y actitudinal), la evaluación de los aprendizajes exige procedimientos y técnicas diferenciadas.
En ese sentido conviene tener ciertos criterios (formales e informales) para valorar la creciente competencia del alumno, los cuales permitirán tomar decisiones en un triple sentido, por ejemplo:
- Para comprobar el progreso y autocontrol del alumno en la ejecución de la tarea y saber si se conduce al alumno en el sentido correcto
- Con el fin de valorar cuantitativa y cualitativamente el tipo de apoyo prestado a los alumnos
- Para decidir cómo y de qué manera ocurrirá el proceso de cesión del control y la responsabilidad
Tal información es relevante para decidir sobre el grado de eficacia de distintos aspectos relacionados con la enseñanza, como pueden ser el arreglo didáctico, las condiciones motivacionales, el clima socio – afectivo, existente en el aula, la naturaleza y adecuación de la relación docente – alumno o alumno – alumno, en función, claro está, de las metas educativas que se persiguen.
Por último, no hay que dejar de insistir en la función de retroalimentación que debe proveer la evaluación para el docente y para el alumno.
Una de las metas que debe tenerse presente en todo momento y hacia la cual se tendría que aspirar en toda situación de enseñanza, es el desarrollo de la capacidad de autoevaluación en los alumnos. Así como el aprender de forma significativa y aprender a aprender se consideran metas valiosas en la educación, la actividad de autoevaluación debiese ser considerada igualmente relevante ya que sin ésta aquellas formas de aprendizaje difícilmente ocurrirían en situaciones de aprendizaje autónomo o autoregulado.
- Procedimientos de evaluación
Según Galo de Lara el procedimiento es un sistema que se sigue para hacer o ejecutar algo. Las dos clases de procedimientos –individuales o colectivos- se diferencian en cuanto a la forma de la aplicación. En la primera se evalúa a cada alumno por separado y en la segunda se permite la aplicación del instrumento al grupo. Los procedimientos individuales requieren más tiempo en su empleo; sin embargo, poseen mayor validez de contenido en relación a ciertos aprendizajes; y entre estos tenemos: la exposición oral, cuestionario oral, entrevista guiada, observación de una actuación o un producto.
Los procedimientos colectivos generalmente se utilizan con mayor frecuencia, por la facilidad de su aplicación y corrección. También en este caso son más o menos válidos en relación al aprendizaje que se pretende evaluar y entre estos tenemos: las pruebas de ensayo, cuestionarios y pruebas objetivas.
5. Técnicas e instrumentos de evaluación
La técnica alude al método que se utiliza para la obtención de la información, el instrumento se refiere al recurso específico que se emplea.
Una de las dimensiones más relevantes de la evaluación educativa se refiere a las técnicas que suelen utilizarse en las distintas prácticas educativas. Berliner ha propuesto una clasificación en términos del grado de formalidad y estructuración con que se establecen las evaluaciones, la cual deseamos retomar para presentar las distintas posibilidades técnicas que puede utilizar de forma reflexiva el docente en su práctica educativa.
-
Técnicas informales: Se utilizan dentro de episodios de enseñanza con una duración breve. Como exigen poco gasto didáctico, pueden utilizarse a discreción con la situación de enseñanza o de aprendizaje; además dichas técnicas se distinguen porque el profesor no las presenta a sus alumnos como actos evaluativos, y en este sentido los alumnos sienten que no están siendo evaluados.
Tipos:
- Observación de las actividades realizadas por los alumnos
- Exploración a través de preguntas formuladas por el profesor durante la clase.
-
Técnicas semi-formales: Se caracterizan por requerir un mayor tiempo de preparación que las informales, demandar mayor tiempo para su evaluación y exigir a los alumnos respuestas más duraderas (lo cual hace que a estas actividades sí se les impongan calificaciones); en particular por esta última razón los alumnos suelen percibirlas más como actividades de evaluación, en comparación con las técnicas informales. Variantes:
- Ejercicios y prácticas que los alumnos realizan en clase.
- Tareas que los profesores encomiendan a sus alumnos para realizarlas fuera de clase.
-
Técnicas formales: Exigen un proceso de planeación y elaboración más sofisticados y suelen aplicarse en situaciones que demandan un mayor grado de control. Por esta razón los alumnos (y los profesores inducen a ello) los perciben como situaciones “verdaderas” de evaluación. Este tipo de técnicas suelen utilizarse en forma periódica o al finalizar un ciclo completo de enseñanza y aprendizaje. Modalidades:
- Pruebas o exámenes tipo test
Estas son de las técnicas más utilizadas para realizar una evaluación. Se puede definir a los exámenes en su forma típica, como aquellas situaciones controladas en donde se intenta verificar el grado de aprendizaje logrado por los aprendices.
Supuestamente, los exámenes son recursos que han aparecido en el ámbito educativo con la intención de lograr una evaluación objetiva, libre lo más posible de interpretaciones idiosincráticas al establecer juicios sobre los aprendizajes de los alumnos. Otra característica adicional asociada al examen, es la supuesta posibilidad de cuantificar el grado de competencia o aprendizaje a través de calificaciones consistentes en números.
En la metodología de su elaboración se pone énfasis en que contengan un nivel satisfactorio de validez y de confiabilidad para su uso posterior.
Los exámenes pueden ser al menos de dos tipos: los estandarizados (por lo general los elaboran especialistas en evaluación) y los formulados por los profesores según las necesidades del proceso pedagógico. Estas dos modalidades también coinciden con dos tipos de juicios o interpretaciones que se establecen a partir de los puntajes resultantes. Así, se puede identificar evaluaciones basadas en normas o en criterios.
La evaluación referida a normas sigue una aproximación similar a la de las pruebas psicométricas estandarizadas, esto es, comparar a un sujeto contra su grupo de referencia (en este caso el grupo-clase). Dicha evaluación ha recibido varias críticas, y son las siguientes:
- Tales exámenes sirven más bien para medir capacidades generales y no conocimientos o habilidades específicos.
- La distribución o curva normal sólo ocurre cuando se tiene un número amplio de calificaciones.
- A través de dicha evaluación sólo se puede obtener información sobre el grado de acierto o ítems o reactivos respondidos por los alumnos, mientras que la información sobre las causas de las fallas, así como las posibilidades de retroalimentación y orientación quedan seriamente limitadas.
- Las comparaciones y las discriminaciones que se establecen no suelen agradar a los alumnos.
La evaluación criterial compara la competencia de los alumnos contra ciertos criterios diseñados previamente (y plasmados en los objetivos o intenciones educativas). De hecho se dice que un instrumento de evaluación criterial se utiliza para estimar el estado o lugar de un aprendiz en relación a un dominio (conceptual, procedimental, etc) que previamente ha sido definido del modo más veraz y objetivo posible.
En oposición a las pruebas referentes a normas, las basadas en criterios son sin duda más recomendables, porque evitan los efectos de las comparaciones, dado que éstas afectan distintas variables psicológicas en los alumnos (por ejemplo, autoconcepto, autoestima, expectativas, metas y atribuciones).
Existe la posibilidad de seguir otros procedimientos al establecer los juicios interpretativos: por ejemplo, a través de comparaciones intra-individuales (el alumno contra sí mismo) o con el establecimiento de los juicios sin partir de criterios tan cerrados o previstos, dando una orientación más estimada y respetando la variabilidad de aprendizajes y ejecuciones de los alumnos (esta última dependerá del tipo de dominio o tarea que se ha de realizar).
Los instrumentos utilizados en los exámenes o pruebas tipo test están construidos por medio de un conjunto de reactivos. El nivel de estructuración de estos últimos influye de manera importante en el tipo de procesos cognitivos y de aprendizajes significativos que logran los alumnos.
Así por ejemplo, los reactivos de alto nivel de estructuración como son los de “falso-verdadero”, “correspondencia” y “complementación” de manera evidente exigen a los alumnos principalmente el simple reconocimiento de la información. Los reactivos de “respuesta breve” o “complementación” y los de “opción múltiple”, demandan por lo general, el recuerdo de la información (proceso más sofisticado que el de reconocimiento), aunque si son elaborados a la perfección pueden valorar niveles de comprensión (parafraseo reproductivo y productivo) y hasta aplicación de los conocimientos.
Estos tipos de reactivos tienen algunas características que se señalan a continuación:
- Son los reactivos típicos de las llamadas pruebas objetivas.
- Pueden ser calificados e interpretados con mucha rapidez o precisión.
- Su diseño no es tan sencillo como parece.
- La elección de los reactivos o de las respuestas de éstos por parte del diseñador no está exenta de subjetividad.
- En un breve período puede responderse un número considerable de reactivos.
- No permiten valorar habilidades complejas: creatividad, capacidades de comunicación o expresión, elaboración de argumentos, etc.
- Gran parte de los reactivos pueden responderse por medio de aprendizajes memorísticos o de aprendizajes poco significativos.
Todavía hay otros dos tipos de reactivos que suelen utilizarse en los exámenes, pero que demandan una evaluación cualitativa y no cuantitativa como en los casos anteriores. Estos reactivos son: los de “respuesta abierta” y los de “desarrollo de temas”. A diferencia de los anteriores, demandan actividades de mayor complejidad y procesamiento tales como comprensión, elaboración conceptual, capacidad de integración, creatividad, habilidades comunicativas, capacidad de análisis y establecimiento de juicios reflexivos o críticos.
Es evidente que para poder calificarlos el docente debe establecer juicios o interpretaciones cualitativas que muchas veces suelen estar cargados de dosis significativas de subjetividad. Sin embargo, para garantizar un cierto nivel de objetividad en las calificaciones pueden aplicarse listas o catálogos de criterios sobre las respuestas o producciones solicitadas.
Uno de los recursos a los que más recurre el profesorado para basar la elaboración de los reactivos sobre la taxonomía cognitiva de los objetivos, propuesta por B. Bloom y cols . Según dicha taxonomía, elaborada a finales de los cincuenta, se pueden clasificar los objetivos de un programa, curso, etc, en función de seis niveles de complejidad creciente, a saber:
1. Conocimiento: recuerdo y retención literal de la información enseñada.
2. Comprensión: entendimiento de los aspectos semánticos de la información enseñada.
3. Aplicación: utilización de la información enseñada.
4. Análisis: estudio de la información enseñada en sus partes constitutivas.
5. Síntesis: combinación creativa de partes de información enseñadas para formar un todo original.
6. Evaluación: emisión de juicios sobre el valor del material enseñado.
La taxonomía de Bloom ha sido objeto de numerosas críticas. Se ha dicho, por ejemplo, que tal clasificación taxonómica no fue elaborada sobre la base de un modelo teórico sólido, ni tiene suficiente evidencia empírica que la respalde, debido a esto se cuestiona su validez psicológica y de enseñanza. Otros comentarlos críticos más específicos de la taxonomía, son los siguientes:
- La conceptualización de la taxonomía se centra más en los productos esperados que en los procesos que conducen a ellos.
- Algunos niveles considerados como superiores (v. gr., la “evaluación”) no necesariamente son más complejos que otros considerados inferiores (los referentes a los de “análisis” y “síntesis”).
- Se ha comentado que la taxonomía no es exhaustiva, dado que se excluyen algunos procesos tales como la observación, la reconstrucción de experiencias, las habilidades lógicas, etc.
- En la taxonomía no se usa un mismo principio de jerarquización; por ejemplo, “conocimiento”, “análisis” y “síntesis” se refieren a una escala de productos, mientras que “comprensión” a operaciones y “evaluación” a elaboración de juicios.
-
Su empleo no asegura niveles adecuados de confiabilidad.
Los principales cuestionamientos que han recibido los exámenes son los siguientes:
- Sirven más para la valoración de los contenidos de tipo declarativo y poco para los de tipo procedimental, actitudinal y valoral.
- Por lo general plantean situaciones de evaluación artificiales y descontextualizadas.
- Acentúan el valor de las calificaciones al centrarse demasiado en los productos, descuidando el proceso de construcción que está detrás de ellos.
- Proporcionan poca retroalimentación cualitativa sobre la situación de enseñanza.
- Generalmente, a los alumnos no se les informa sobre los criterios de evaluación antes de su uso.
- Generan ansiedad en los alumnos (“ansiedad de prueba”).
Son una alternativa interesante para la evaluación de contenidos declarativos . La evaluación a través de mapas conceptuales puede realizarse según tres variantes:
1. Solicitando su elaboración a los alumnos, toda vez que sea el profesor quien proponga únicamente la temática o el concepto focal sobre el que se construirá el mapa que habrá de evaluarse.
2. Solicitando su elaboración a los alumnos, pero en este caso el profesor debe proponer todos los conceptos que exclusivamente se considerarán en el mapa que se evaluará.
3. Los elaborados por el profesor para guiar las preguntas hechas a los alumnos (en una situación de entrevista), o para analizar las respuestas escritas u orales de los alumnos (como “plantilla” de análisis).
Las primeras dos modalidades son menos costosas para el profesor (pueden aplicarse en forma individual o grupal), pero exigen que los alumnos conozcan y se familiaricen de antemano con la técnica de elaboración de los mapas. En la primera de las modalidades, se puede valorar al “natural” el grado de profundidad (diferenciación progresiva) y amplitud (reconciliación integradora) en el manejo de los conceptos involucrados en el tema; en la segunda, hasta cierto punto se les induce a relacionar los conceptos, aunque el interés en este caso debe centrarse en el grado de precisión semántica del manejo de los conceptos y sus relaciones. Los dos tipos de realización de los mapas son mejores si se solicita a los alumnos que los acompañen con una explicación escrita (u oral), ya que proveerán más información para la evaluación.
La tercera modalidad exige que el profesor construya primero el mapa (el mapa “experto”) y que luego lo utilice como guía o pauta para dirigir entrevistas que intenten valorar las concepciones de los alumnos o para evaluar sus respuestas cuando se trata de pruebas escritas; sin duda este recurso es de mayor utilidad para tareas de exploración e investigación que el profesor desea realizar cuando sea necesario hacer un análisis, con cierto grado de profundidad, del manejo que tienen los alumnos acerca de temáticas o conceptos complejos.
Para la valoración de los mapas puede hacerse un juicio evaluativo sobre el lenguaje de éstos, o sobre una comparación también cualitativa entre mapas elaborados antes y después de la instrucción.
Novak y Gowin han propuesto varios criterios basados en los procesos y mecanismos psicológicos que describen la teoría de la asimilación de Ausubel, para valorar la calidad de los mapas construidos por los alumnos. Tales criterios son:
- Considerar la calidad de la organización jerárquica conceptual en los mapas elaborados (niveles de jerarquía en función de la temática o el concepto focal). Hay que recordar que a través de dicha organización jerárquica es posible valorar el nivel de diferenciación progresiva conseguido.
- Apreciar la validez y precisión semántica de las distintas relaciones establecidas entre los conceptos (que todas las relaciones sean veraces y estén rotuladas adecuadamente según el tipo de relación semántica apropiada entre los conceptos involucrados).
- Tomar en cuenta dentro del mapa, la densidad (nivel e integración correcta de conceptos) y las relaciones cruzadas (establecidas entre distintas partes del mapa) dado que involucran actividades de reconciliación integradora.
- Considerar los ejemplos incluidos en el mapa.
De acuerdo con Novak y Gowin es posible proponer un puntaje arbitrario para estos aspectos, con la consideración de que los tres primeros son los más relevantes. Ellos proponen que los puntajes pueden asignarse en el siguiente orden:
1. Para las relaciones correctas entre conceptos: un punto.
2. En el caso de los ejemplos correctos: la mitad del valor que las relaciones correctas o igual valor.
3. Para los niveles jerárquicos bien puestos: de tres a diez veces lo que vale una relación correcta.
4. En el caso de las relaciones cruzadas correctas: dos veces lo que vale un nivel jerárquico bien puesto.
También podría obtenerse un coeficiente porcentual con respecto a un mapa conceptual “experto”; por ejemplo, con el establecimiento de un cociente entre el puntaje total del mapa del alumno (obtenido por medio de los distintos aspectos mencionados anteriormente) y el puntaje total del mapa “experto” (realizado por el profesor). O bien podría establecerse un coeficiente de ejecución intra-alumno, al comparar los mapas elaborados antes y después de la secuencia de enseñanza que se evalúe para determinar el progreso de la construcción de los aprendizajes.
Otro tipo de técnicas de evaluación formal son las llamadas “pruebas de ejecución” entre las cuales se encuentran el Examen Clínico Objetivo Estructurado (ECOE), utiliza como instrumentos las escalas y las listas de cotejo. Estas consisten en el diseño de una actividad real o al menos simulada en donde los aprendices ejecutan las habilidades técnicas o aplican conocimientos aprendidos (v. gr., aplicar una técnica de primeros auxilios, escribir un texto, ejecutar una estrategia cognitiva, solucionar problemas matemáticos, etc .
Estas pruebas son muy útiles para la evaluación de contenidos procedimentales y también, aunque en menor medida, para los de tipo referente a las actitudes. Tienen la ventaja de plantear situaciones menos artificiales que las propuestas por las pruebas escritas y de evaluar en contextos muy próximos a los reales (si es que éstos no pueden abordarse).
A continuación, se presentan algunas características deseables que deben tener las tareas involucradas en las pruebas de ejecución:
- Que la tarea requerida corresponda con las intenciones de enseñanza.
- Que la tarea demandada represente el contenido y los procedimientos que se esperan conseguir en los estudiantes.
- Que la tarea permita a los estudiantes demostrar su progreso y sus habilidades implicadas.
- Que se empleen tareas reales y auténticas en la medida que sea posible.
Aquí también merecen un comentario todos aquellos tipos de evaluación en los que se utiliza formas de simulación muy próximas a las situaciones reales. Por ejemplo, los simuladores escritos, las evaluaciones basadas en problemas muy parecidos a los reales, y hasta la evaluación que se realiza a través de programas de simulación informática.
En todas estas modalidades se evalúa los aprendizajes significativos, atendiendo a los aspectos más asociados con su funcionalidad. A través de ellas puede valorarse con un grado suficiente de certeza, si los alumnos han aprendido los contenidos dentro de los propósitos para los que se enseñaron. También son técnicas que posibilitan un alto grado de generalización y transferencia de los conocimientos aprendidos.
Las listas de cotejo o verificación y escalas son instrumentos que pueden ser aplicados conjuntamente con las pruebas de ejecución, como recursos para dirigir la atención a los aspectos relevantes .
Estos instrumentos pueden servirle al profesor para determinar el grado de adecuación con que las ejecuciones involucradas en las tareas o situaciones de prueba están siendo realizadas por los aprendices.
- Las listas de cotejo o verificación son instrumentos diseñados para estimar la presencia o ausencia de una serie de características o atributos relevantes en la ejecución (v. gr., manejo de un instrumentos, producción escrita, etc.) y/o en el producto (dibujos, producciones escritas, etc.) realizados por los alumnos.
Para construir una lista de verificación se necesitan realizar cuatro pasos básicos:
- Elaborar un listado de las dimensiones relevantes de los procedimientos, habilidades, etc, y/o productos a observar (conviene tener en cuenta los criterios señalados en las intenciones u objetivos).
- Conviene añadir algunos errores típicos en la lista.
- Establecer un orden lógico esperado con base en la aparición y secuencia de las actividades involucradas en la ejecución; el orden puede no ser tan estricto para el caso de la evaluación de productos.
- Organizar y dar presentación a la lista de tal manera que se facilite su uso.
Conviene que la lista de verificación no sea muy extensa, que los ítems sean enunciados con claridad y se centren en aspectos relevantes, se dejen espacios entre reactivos para añadir algunos comentarios adicionales posibles sobre la naturaleza de la acción o del procedimiento realizado y/o del producto final, y por último, que la lista completa sea de fácil uso.
Si bien las listas de verificación permiten obtener información útil sobre la presencia o ausencia de determinados atributos de las ejecuciones o productos, no proporcionan información de naturaleza cualitativa sobre la forma en que han sido realizadas. Las escalas aportan alternativas para la solución de este problema.
-
Se puede definir a las escalas como instrumentos que permiten establecer estimaciones cualitativas dentro de un continuo sobre ejecuciones o productos realizados por los alumnos.
Dentro de las escalas se pueden distinguir varios tipos: escalas formales de actitudes (Likert, Thurstone, Guttman), escalas tipo diferencial semántico, escalas de estimación y escalas de producción del aprendiz. Cada una de ellas puede tener importantes aplicaciones en los escenarios educativos, aunque sin duda son relevantes las dos últimas. Su elaboración es por supuesto más compleja que la de las listas de verificación, aunque pueden seguirse básicamente los mismos pasos necesarios para el diseño de éstas pero se agrega la confección de escalas-continuo para cada dimensión relevante de la ejecución o producto que interese evaluar.
Las escalas pueden ser de dos tipos básicos: cualitativas (descriptivas o basadas en criterios o estándares amplios) y numéricas. En el primer caso, se usan calificativos para caracterizar las dimensiones relevantes con el establecimiento de juicios descriptivos (v.gr., tarea incompleta, parcialmente completa, tarea completa) o evaluativos (v.gr., excelente, bien, suficiente, mal, muy mal). En el segundo caso, se asignan valores numéricos dentro de la escala, lo cual resulta mucho más fácil pero poco informativo si no se cuenta con buenos descriptores.
Los continuos de las escalas pueden tener distintos puntos o segmentos en donde pueda calificarse la característica o dimensión particular de que se trate, y ubicarla entre dos polos: uno positivo y otro negativo. Para ello, no hay una regla preestablecida, pero al menos se hacen las siguientes sugerencias:
- Que los puntos sean siempre más de dos (una escala de cinco o incluso siete puntos es más confiable).
- El número de puntos dependerá del tipo de decisiones que se desee tomar con los estudiantes para la conducta, procedimiento o proceso a evaluar.
- El número de puntos deberá permitir identificar diferencias claras para establecer algún tipo de comparación (v.gr., intra-alumno, intergrupo, etc).
- De preferencia, la cantidad de puntos deberá ser un número impar. La estimación y puntaje no requerirá de dosis elevadas de inferencia o interpretación.
Las escalas también pueden ser utilizadas por los alumnos (u otras personas involucradas, por ejemplo: padres, hermanos, etc) y no sólo por los profesores. Para ello es necesario asegurarse que la escala propuesta esté bien diseñada (que tengan suficiente claridad en sus reactivos o ítems, en sus continuos-escalas, en sus opciones, etc).
De entre los numerosos instrumentos evaluativos que se utilizan, es claro que aquellos que tengan mayor confiabilidad y validez serán mejores predictores del comportamiento profesional del evaluado. Pero también hay que tener en cuenta el objetivo y las características de esa evaluación. No parece razonable emplear las mismas técnicas para, por ejemplo, elegir entre dos candidatos a un puesto de trabajo que para realizar una selección entre miles de candidatos. También el tiempo y los recursos de los que se disponen condicionan las técnicas a elegir en cada situación.
7. Características de los instrumentos de evaluación: Validez y confiabilidad
Cuando se planifica la evaluación de la competencia no sólo es necesario poner atención cuidadosa a los elementos sumativos y formativos, sino también a los aspectos de confiabilidad y validez. La evaluación ideal produce resultados confiables, válidos y es práctica.
Cuando se consideran diferentes técnicas de evaluación, tres preguntas deben ser planteadas:
1. ¿Son los resultados de la evaluación confiables?
2. ¿Son los resultados de la evaluación válidos?
3. ¿Es la evaluación práctica?
8. Confiabilidad: Describe la precisión, consistencia y reproducibilidad de los resultados de un test. Ha sido definida como “el grado en el cual los puntajes del test son consistentes, exactos y repetibles, es decir, el grado en cual están libres de errores de medición”.
El concepto de confiabilidad es mejor comprendido observando un escenario hipotético: imaginar un examen que es aplicado en dos días diferentes a la misma persona, y que no ha existido ningún aprendizaje interviniente. El grado en el que los puntajes serían idénticos representa la confiabilidad de los resultados del test. La confiabilidad es una medida que se ubica en una escala de 0 a 1 (en la que 1 representa confiabilidad perfecta y 0 representa un test completamente no digno de confianza). Para un examen de alta precisión, una confiabilidad de 0.8 o mayor es considerada deseable
La confiabilidad es afectada por muchos factores tales como juicios del examinador, casos usados, nerviosismo de los candidatos y condiciones del examen.Dos aspectos de la confiabilidad han sido bien investigados: confiabilidad inter-evaluador e inter-casos (candidato). La confiabilidad inter-evaluador mide la consistencia de determinar el rendimiento por diferentes examinadores. El uso de múltiples examinadores a través de casos diferentes mejora la confiabilidad inter-evaluador. En un examen oral, el juicio promedio de diez examinadores; cada uno evaluando al candidato en una pregunta, produce un examen más confiable que aquel en donde un examinador realiza diez preguntas.
La consistencia del rendimiento a través de los casos (confiabilidad inter-casos) es tal vez el aspecto más importante en la evaluación de la competencia clínica en medicina. Los estudiantes y médicos no tienen un desempeño consistente de tarea a tarea. Esta observación no podría ser sorprendente dadas las diferencias en las experiencias individuales encontradas durante el entrenamiento y la práctica, pero pone en tela de juicio el enfoque tradicional de evaluar la competencia clínica, con el cual la competencia de los candidatos fue evaluada en un caso único. Los exámenes de destrezas clínicas se han desplazado a un formato multicasos con el desarrollo del examen clínico objetivo estructurado (ECOE) que consiste en una serie de tareas y encuentros (estaciones). Para conseguir una confiabilidad intercasos adecuada para el examen son esenciales muchas estaciones y tiempo de evaluación suficiente. Cualquiera que sea el formato del test, la duración es crítica para la confiabilidad de cualquier test de competencia clínica.
Otros tipos de confiabibilidad:
- Confiabilidad test-retest: Consiste en la aplicación de un mismo instrumento a los sujetos en dos ocasiones y luego se establece el grado de correlación que existe entre las dos aplicaciones.
- Confiabilidad del registro de las observaciones: Se refiere al grado de acuerdo de los observadores independientes que registran una conducta.
- Confiabilidad de formas alternadas o alternas: Consiste en la aplicación de dos versiones o formas alternas de un mismo instrumento. Para comprobar la confiabilidad se aplica el instrumento una vez, luego en la segunda aplicación, en vez de usar el mismo instrumento, se utiliza la forma alterna del mismo (lo más parecido al primero), se toman los resultados en ambas aplicaciones y se correlacionan los resultados entre sí.
- Confiabilidad empírica: Se aplica a una muestra piloto con similares características que la muestra en la que se va a llevar a cabo el estudio. Las clases de confiabilidad empírica son:
a) Confiabilidad con las pruebas de rendimiento: Se aplica la fórmula de la correlación de Kuder-Richardson.
b) Confiabilidad con las pruebas de sentimientos: Se aplica la fórmula de la correlación del coeficiente alpha de Cronbach
9. Validez: Un instrumento de evaluación es válido si mide lo que pretende medir. Grado en que su calificación o resultado realmente refleja lo que realmente se está midiendo, es decir, la precisión con que una prueba mide la conducta especificada en los indicadores sometidos a comprobación.
La validez, de otro lado, se refiere a si un test realmente tienen éxito en evaluar las competencias para el que está diseñado evaluar. Ninguna técnica válida de evaluación que mida todas las facetas de la competencia clínica ha sido diseñado. La pirámide de competencias introducida por Miller es un modelo conceptual simple, que delinea los aspectos involucrados cuando se analiza la validez (Fig 1).
Las clases de validez más usadas son las siguientes:
a) Validez de contenido o validez descriptiva: Se refiere a la extensión en el que el contenido de un test refleja el contenido del dominio que está siendo evaluado. Por ejemplo, un examen de Cirugía General que no incluye ninguna pregunta sobre patología mamaria puede ser considerado que tiene pobre validez de contenido. Para desarrollar la validez de contenido usualmente se requiere la presencia de 10 expertos como mínimo, quienes reciben la matriz de consistencia donde se observan todos los componentes lógicos, la matriz del instrumento o la tabla de especificaciones donde se presenta la variable y subvariables (dimensiones e indicadores) que se pretenden medir.
Con los resultados obtenidos de los 10 jueces lo sometemos a la prueba del X2 para verificar si el número de respuestas de aceptación resulta significativo por lo menos a un nivel de confianza del 0.95.
b) Validez de criterio: Se refiere a la eficacia en que los resultados de un test se correlaciona con otras mediciones (validez concurrente) o predice un rendimiento futuro (validez predictiva). Por ejemplo, si los resultados del American Board of Surgery In-training Examination se correlaciona altamente con el Certifying Examination Performance, se afirma que el American Board of Surgery In-training Examination tiene validez predictiva.
c) Validez empírica: La aplicación de esta prueba requiere de una muestra piloto, muy similar a la muestra donde se va a desarrollar el estudio, el número de integrantes de la muestra varía de acuerdo al tamaño de la población. Los resultados que se obtengan se dan a través de la correlación (r) de Pearson. Un instrumento es válido si la correlación es aceptable, alta y muy alta Si quisiéramos confirmar el resultado encontrado se emplea la ecuación profética de Spearman-Brow que tiene por finalidad confirmar y corregir las posibles pérdidas de los pares en el desarrollo de la correlación. De acuerdo a los valores, la correlación se clasifica en las siguientes categorías:
Cuadro 1. Valores de correlación
d) Validez de constructo: Se refiere a la extensión en que un test mide el rasgo para el que es diseñado que mida. Por ejemplo, un examen oral puede ser diseñado para evaluar el juicio en el manejo de aspectos quirúrgicos complejos. Uno puede imaginar una situación en la cual el examen podría en realidad medir algo muy diferente, tales como destrezas en el idioma o la capacidad general para comunicar. En ese caso, al examen le falta validez de constructo, debido a que realmente no mide la cualidad destinada a medir. La validez de constructo es un concepto importante, pero a menudo es difícil de capturar.
e) Validez aparente: Se refiere al grado en el que el examen se parece a una situación de la “vida real”. Por ejemplo, las preguntas de elección múltiple tienen pobre validez aparente como una medición general de la competencia quirúrgica. En contraste, las evaluaciones que observan a los cirujanos en entrenamiento en acción, incluyendo el ECOE y el OSATS (Examen Objetivo Estructurado de Destrezas Técnicas) tienen una buena validez aparente.
Con respecto a los instrumentos de evaluación, la validez de contenido es esencial. La validez de constructo y de criterio son importantes para la credibilidad del test. La validez aparente es de igual forma una característica deseada.
Wolming señala que dentro del marco de la educación superior, hay varias formas de exámenes, por lo que la interpretación de la validez predictiva del instrumento relacionado puede ser afectado por los problemas de criterio.
El concepto de validez ha sido materia de debate y cambio. Desde la mitad de los 1950s hasta la mitad de los 1980s fue costumbre clasificar la validez en los siguientes tipos dependiendo del propósito del examen: validez de contenido, validez relacionada al criterio y validez de constructo. En educación, la elección de los instrumentos ha sido enfocada usualmente en la validez predictiva del instrumento de medición, es decir en su capacidad de predecir el éxito académico de los estudiantes. La división estricta en diferentes tipos ha sido reemplazada ahora por un consenso que la validez no puede ser dividida entre estas categorías. Ha sido establecido que hay muy pocas ocasiones en que es usada sólo un tipo de validez, y que normalmente, todos los aspectos están presentes en una validación
Messick postula que el concepto de validez puede ser separado en dos dimensiones. La primera dimensión está relacionada al resultado del test, donde la interpretación del test, su utilidad y relevancia son discutidas. La segunda dimensión está relacionada a la cuestión de qué motiva el test, es decir, los valores de interés que el test intenta medir y en parte por las consecuencias concebibles que el test podría tener. Cuando estas dimensiones son combinadas, el resultado es un modelo de cuatro facetas, que de acuerdo a Messick, incluye todos los aspectos de la validez. Una interpretación de este modelo es que forma parte de un proceso de validación, constituyendo un modelo de como puede ser efectuada una evaluación de la validez de un instrumento. (Cuadro 2)
Cuadro 2. Facetas del marco de la validez de Messick (Messick, 1989, pp. 20)
La primera faceta (validez de constructo) enfoca la evidencia en que el test realmente mide la calidad o capacidad que intenta medir. En este contexto, Messick señala dos tipos de “amenazas” que pueden afectar la validez de constructo de un instrumento específico de medición; la primera amenaza es la sub-representación del constructo de interés: El instrumento no puede cubrir todos los aspectos y dimensiones importantes de la cualidad o capacidad que el test intenta medir. La segunda “amenaza” es la sobre-representación, v.gr., cuando el instrumento está también midiendo aspectos irrelevantes. En esta perspectiva la dimensionalidad del constructo es relevante en un proceso de validación.
La segunda faceta (validez de constructo + relevancia /utilidad) enfoca no solamente en la validez de un constructo del instrumento, sino también en la validez que sustenta la utilidad o relevancia del uso del instrumento. Un instrumento es poco útil si no hay información acerca de su función práctica aún si ha sido determinada la cuestión de lo que el instrumento realmente mide. Consecuentemente, un instrumento usado en un proceso de selección tiene que demostrar que cumple su propósito, es decir, que es capaz de seleccionar a los estudiantes que son los más probables que consigan el éxito académico.
La tercera faceta (implicancias de valor) señala los valores implicados que pueden estar asociados con las cualidades y capacidades que un instrumento intenta medir.
La última faceta (consecuencias sociales) representa los impactos potenciales de un test en las partes involucradas. El juicio que si un instrumento de evaluación cumple con su propósito debería considerar tanto las consecuencias deseadas y no deseadas de su uso e interpretación. Si un instrumento de medición indica diferencias entre varones y mujeres o entre diferentes grupos étnicos, esto puede tener consecuencias sociales para estos grupos.
Evaluación práctica: Los atributos de una evaluación práctica incluyen disponibilidad (portátil, barato, aceptable para los candidatos), gran alcance (evalúa competencias múltiples) y relevante (la evaluación debe ser vista como importante por los examinadores y examinados). Aunque estos atributos no representan propiedades específicas medibles de un examen, ellos son muy importantes en la selección y aplicación de los instrumentos de evaluación en programas de residencia
-
Evaluación. Neufeld y Norman han indicado los aspectos claves en la medición que deberían ser enfatizados cuando se diseñan evaluaciones de las competencias
Cuadro 3. Aspectos clave en la medición de la competencia
Tabla de especificaciones (“Blueprinting”). Si los estudiantes enfocan el aprendizaje sólo en lo que es evaluado, la evaluación en la educación debe validar los objetivos fijados por el currículum. El contenido del examen debe ser cuidadosamente planificado según los objetivos de aprendizaje-un proceso conocido como tabla de especificaciones. Para los currículos de pregrado, en los cuales la definición de contenido central está convirtiéndose ahora en un requerimiento, este proceso podría ser más fácil que para los exámenes de postgrado, donde el contenido curricular permanece más extensamente definido.
Los programas de evaluación deben también adaptar las competencias que están siendo aprendidas y los sistemas de enseñanza que están siendo usados. Muchos currículos definen objetivos en términos de conocimiento, destrezas y actitudes. Estos no pueden ser apropiadamente evaluados por un formato de examen único. Todos los exámenes deberían ser chequeados para asegurar que ellos son apropiados al objetivo que se está evaluando. Un examen de elección múltiple, por ejemplo, podría ser un examen más válido de conocimiento que de destrezas personales, las cuales podrían ser mejor evaluadas con un examen interactivo. Sin embargo, debido a la complejidad de la competencia, muchos exámenes diferentes deben ser usados.
Establecimiento de estándares. En la evaluación de cualquier competencia es esencial hacer inferencias acerca de los resultados de los exámenes. Cuando la evaluación es usada con propósitos sumativos, el puntaje mediante el cual un estudiante aprobará o reprobará tiene también que ser definido. La evaluación referida a normas, que compara un estudiante con otros, es frecuentemente usada en los procedimientos de examen si se requiere que pasen un número especificado de candidatos. La competencia es descrita con relación a las posiciones de otros candidatos. Sin embargo, no son explicadas las diferencias en las capacidades de las cohortes de estudiantes que rinden los exámenes. Por consiguiente, si un grupo está por encima del promedio en capacidad, aquellos quienes podrían haber pasado en una cohorte de estudiantes más deficiente saldrán mal. La evaluación referida a normas es claramente inaceptable en los exámenes de competencia para obtener la licenciatura, cuyos objetivos son asegurar que los candidatos estén aptos para el ejercicio. Es necesario que se defina un estándar claro, bajo el cual un profesional no sería juzgado disponible para el ejercicio. Tales estándares son establecidos por la evaluación criterial. En este caso, el estándar mínimo aceptable es decidido antes del examen. Sin embargo, aunque son explicadas las diferencias entre los candidatos, la variación de la dificultad del examen se convierte en un aspecto clave; los estándares deberían ser establecidos para cada examen, ítem por ítem. Varias técnicas consumidoras de tiempo pero esenciales han sido desarrolladas para hacer esto, tales como las técnicas de Angoff y Ebel. La elección de la técnica dependerá de los recursos disponibles y de las consecuencias de clasificar erradamente a los examinados como haber pasado o salido mal.
Modelos de evaluación de competencias y desempeño en Ciencias de la salud
Pirámide de Miller. Conceptualiza las facetas esenciales de la competencia clínica (Fig 1) y se presentan algunas de estas técnicas e instrumentos de evaluación y el nivel de la pirámide de Miller al que van dirigidos preferentemente.
Fig 1. Pirámide de competencias de Miller
Evaluación del “sabe” y “sabe como”
La evaluación del pregrado médico ha tenido la tendencia a concentrarse en la base de la pirámide: “sabe” – p.e.; el recuerdo factual exacto de conocimiento y el “sabe como” – p.e., la aplicación del conocimiento a la solución de problemas y a la toma de decisiones. Esta evaluación podría ser apropiada en estadios tempranos del currículum médico, pero, como la enseñanza de destrezas está más verticalmente integrada, la planificación cuidadosa de los formatos de evaluación se torna crucial. Están disponibles diversos formatos de exámenes de recuerdo factual, los cuales son fáciles de hacer y de rendir. Los formatos de opción múltiple son populares y los más ampliamente usados. Aunque demandan tiempo en su elaboración, estos exámenes tienen una alta confiabilidad, debido al gran número de ítems que pueden ser fácilmente evaluados y marcados. Sin embargo, la crítica a la validez de las preguntas de opción múltiple ha motivado mucha investigación en opciones alternativas, tales como preguntas de respuesta única, verdadera o falsa, apareamiento extendido y menús de opciones cortos y largos. Se arguye que sólo el conocimiento trivial puede ser evaluado de esta manera. Al dar opciones, se evita la generación activa de conocimiento.
Otras técnicas de examen han sido usadas para evaluar conocimiento factual. En Europa son todavía populares los exámenes orales y ensayos, a pesar de haber sido excluidos de las evaluaciones en Norte América durante más de 20 años al atribuirles una baja confiabilidad. Muchos arguyen que la capacidad para recordar y sintetizar información puede ser juzgada de mejor manera en un encuentro frente a frente. Sin embargo, los ensayos son notoriamente difíciles de calificar o corregir de manera consistente y los exámenes orales son poco confiables debido a una falta de estandarización de las preguntas, juicios insuficientes y falta de un tiempo de evaluación suficiente. Desafortunadamente, la reconciliación de los argumentos de la validez con los aspectos de la confiabilidad es casi imposible.
Estas dificultades han conducido a un incremento en enfocar la evaluación “conoce como”; p.e., la evaluación del conocimiento como es aplicado en la solución de problemas o razonamiento clínico en contextos específicos. Todos los formatos de examen mencionados anteriormente pueden ser adaptados para evaluar conocimiento a través de diferentes contextos. Los escenarios clínicos pueden ser aplicados a formatos de elección múltiple, así como a las respuestas de elección única o apareamiento extendido y orales. Sin embargo, es más difícil elaborar preguntas de aplicación que de conocimiento factual directo en un examen.
La solución de problemas parece estar cercanamente ligada al conocimiento y también ser de contenido específico – p.e, la capacidad de resolver problemas de un candidato es inconsistente a través de las diferentes tareas. Como en todas las áreas de evaluación de la competencia clínica, la confiabilidad intercasos se convierte en un tema de discusión. Este dilema es más fácilmente resuelto en los formatos escritos en los cuales hay un gran número de preguntas que son abarcadas rápidamente de manera relativa. Sin embargo, la desventaja del uso de los exámenes orales y ensayos es su baja generalización de las destrezas para solucionar problemas. El coeficiente de generalización es un estimado de la reproducibilidad de la medición en una escala de 0-1.0 y 0.8 es considerado como el requerimiento mínimo para una medición confiable. Swanson calculó que para conseguir un grado aceptable de generalización (0.8) se emplearían 12-16 historias de casos en los exámenes orales. Similares dificultades se aplicarían a los exámenes orales hechos por examinadores entrenados. No obstante Galo de Lara refiere que los exámenes orales permite apreciar el dominio de la expresión oral del alumno además que representa una oportunidad para que este elabore creativamente la respuesta, argumente y exprese opiniones personales. También señala que las evaluaciones orales presentan la posibilidad de la interacción maestro – alumno en la situación de prueba, es decir permite aclaraciones, orientación, comentarios, que centran la respuesta permitiendo apreciar la habilidad para comprender el sentido y la intencionalidad de la cuestión que presenta el profesor; en definitiva, resulta adecuado para evaluar la integración y la estructura del contenido que el alumno ha logrado. Schubert et al en el Cleveland Clinic Foundation Health Sciences Center of the Ohio State University evalúan un programa de examen práctico oral en un programa de entrenamiento de Residentes en Anestesiología. El examen fue percibido positivamente por la mayoría de residentes. Hubo
90.2% de cuestionarios exitosos que reconocieron aprendizaje específico con la técnica del examen oral, mientras que solo 0.3% informó falta de intercambio significativo de información. Concluyen que el examen oral en anestesiología probablemente continuará ocupando un lugar importante en el proceso de certificación dado que evalúa el juicio clínico como la capacidad de resolver problemas, y las destrezas de comunicación, componentes esenciales de la competencia para los anestesiólogos.
El “conoce como” de situaciones éticas y aspectos actitudinales pueden también ser explorados a través de exámenes orales y ensayos. Las dificultades al elaborar tests de “conoce como” se presentan al combinar la aplicación del conocimiento con un amplio rango de problemas requeridos para conseguir una buena confiabilidad intercasos, y al distinguir entre respuestas puestas en fila para conocimiento factual directo (“sabe”) de los procesos pensados motivados por el problema (“sabe como”). En Canadá han sido desarrollados formatos como el examen de “lineamiento clave”. Estos requieren respuestas cortas a escenarios clínicos, pero limitan la evaluación a aspectos clave para facilitar que sean cubiertos en gran número de escenarios. De manera similar, las simulaciones por computadora pueden reemplazar los escenarios verbales o escritos y, existe la esperanza que con el desarrollo de los recursos de multimedia, éstos pueden ser usados para incrementar el estándar de la evaluación clínica.
En el pasado, las simulaciones han sido complicadas. Se han creado situaciones complejas y dinámicas que requieren enormes recursos raramente disponibles en las facultades de medicina.
Evaluación del “demuestra como”:
Casos cortos y largos tradicionales: Aunque fueron abandonados durante muchos años en Norte América, el uso de pacientes reales no estandarizados en casos cortos y largos para evaluar la competencia clínica permanece como un factor de evaluación en el Reino Unido tanto en el pregrado como en el postgrado. Tales exámenes son puestos a prueba de manera creciente con respecto a su autenticidad y falta de confiabilidad. Los casos largos son a menudo no observados, la evaluación confía en la presentación del candidato, representando una evaluación del “sabe como” más que “demuestra como”. Generalmente, sólo un caso largo y tres o cuatro casos cortos son usados. La baja generalización de las destrezas clínicas que son de contenido específico es claramente preocupante cuando se aplica este formato de examen. Todavía escasa investigación psicométrica sobre casos largos se han publicado. Los datos iniciales sugieren que la duración del examen es otra vez la clave para mejorar la confiabilidad en esta forma de evaluación y que diez casos largos observados para la toma de su historia en lugar de uno, podría conseguir la confiabilidad del examen requerida en un examen de gran interés.
Se han hecho intentos para mejorar el formato de los casos largos. Se ha desarrollado una presentación más estructurada de un caso largo no observado en el Registro de Examen Largo Objetivo Estructurado (RELOE), el cual incluye alguna observación directa del candidato interactuando con el paciente. Los casos largos observados son también usados en algunas instituciones . Disminuyendo la duración del tiempo disponible para evaluar un caso y permitiendo que sean evaluados más casos en un tiempo de evaluación dado podría también ser una opción. Sin embargo, esto requiere balancear la duración de la estación para que proporcione resultados más confiables con una duración similar a aquella que ocurre en la práctica clínica. A menos que el formato de los casos cortos y largos sea mejorado por observación directa, y la duración del examen sea extendida para incluir muchos más casos, la poca confiabilidad de este formato tradicional no justifica su uso. Un examen no confiable no puede ser válido.
Evaluación del “hace”
El “hace” involucra una serie de conceptos, procesos y actitudes necesarias para resolver problemas. El desafío real radica en la evaluación del desempeño real del estudiante en las salas del hospital o en el consultorio externo. Se está dirigiendo mayor atención a este tipo de evaluación en el entrenamiento en el postgrado, dado que la revalidación de la aptitud del médico para ejercer y la identificación de los médicos de mal desempeño son áreas de interés público. Cualquier intento de evaluar el desempeño tiene que balancear los aspectos de validez y confiabilidad, y ha habido escasa investigación hacia posibles enfoques en el pregrado de las facultades de medicina. Algunas escuelas de medicina del Reino Unido usan una evaluación en – curso para evaluar el rendimiento del estudiante al final del año en lugar de un examen final sumativo. Si esta técnica es suficientemente eficaz para cubrir lo relacionado a la especificidad del contenido y tener una comprensión necesaria de las evaluaciones discutidas anteriormente permanece como punto de investigación.
Los formatos de examen actual tienden a enfocar demasiado en las competencias basadas en el conocimiento. La evaluación en la punta de la pirámide de Miller, el “hace”, es el desafío internacional del siglo para todo lo involucrado en la evaluación del desempeño clínico. El desarrollo de mediciones confiables de la competencia de los estudiantes con validez predictiva del desempeño clínico subsecuente y un rol educacional simultáneo es una prueba de oro que todavía está para ser conseguida.
Evaluación de la competencia y el desempeño profesional
Salas-Perea, Hatim-Ricardo y Rey-Bravo definen a la competencia como la capacidad para desarrollar de forma idónea una actividad o tarea. Se refiere al conjunto de conocimientos y habilidades esenciales (invariantes), así como a las actitudes de los educandos o candidatos. Es lo que "sabe" y "sabe hacer". Mientras que el desempeño es la conducta real del trabajador o educando para desarrollar competentemente los deberes u obligaciones inherentes a un puesto de trabajo. Es lo que en realidad "hace".
La evaluación de la competencia y el desempeño profesional se puede desarrollar con dos objetivos:
- Con fines diagnósticos, para evaluar la calidad del aprendizaje, la eficiencia del sistema formativo o para identificar necesidades de aprendizaje.
- Con fines certificativos, ya sea de carácter académico (asignatura, curso, entrenamiento, etc) o para la autorización legal del ejercicio profesional o especialista.
La forma cómo se va a realizar la evaluación, en primer lugar dependerá de si lo que se va a evaluar es el nivel de competencia o de desempeño profesional. Se tiene que definir de acuerdo con los objetivos, la técnica que emplearemos: teórica, práctica o combinada; de observación directa, entrevista, auditoría, autoevaluación, etc. Precisaremos a continuación en qué escenario tenemos que desarrollarlos: en el aula o laboratorio docente; en la institución hospitalaria; área, sala, servicio, o en la atención primaria: policlínicos, consultorio o en la comunidad. Al establecer qué indicadores vamos a evaluar, debemos recordar que un indicador es una variable diseñada y empleada para valorar cuantitativa o cualitativamente el grado de cumplimiento de una actividad; así como medir total o parcialmente un comportamiento. Ellos expresan en términos de logros y deficiencias el resultado de un aprendizaje - acción, que se manifiesta a través de conductas concretas, medibles y observables. Los instrumentos deben estar en correspondencia con lo que se va a evaluar, las técnicas que se deben emplear y dónde se va a realizar. Los conocimientos o habilidades intelectuales se pueden evaluar mediante exámenes escritos u orales; si son habilidades senso-perceptuales, técnicas y actitudes se evalúan mediante exámenes clínicos, con el apoyo de listas de comprobación y escalas de calificación, pruebas psicológicas, entrevistas, etc. En cada uno de ellos debe quedar bien claro el patrón de aprobado-desaprobado o de competente-incompetente. Por otra parte en necesario seleccionar la muestra que se debe evaluar de forma aleatoria y cuya cantidad sea significativa desde el punto de vista estadístico. Por último, debe realizarse un análisis de los resultados, que permita identificar las áreas donde existan problemas y validar los instrumentos empleados. No existe ningún procedimiento ni técnica idóneos, ni mejores que otros, todos son útiles y se deben emplear de forma combinada, sobre la base de lo que se quiere evaluar (validez de contenido); cómo y dónde se va a hacer (validez funcional).
El contenido de la evaluación tiene que estar referido a las acciones fundamentales que el examinado desarrolle, combinándolo de forma armónica con la verificación de su capacidad de análisis de las distintas situaciones, variantes y elementos que participan en el problema; como los interrelaciona, llega a conclusiones diagnósticas y establece las prioridades.
La muestra debe ser seleccionada en cantidad y calidad de forma aleatoria. Siempre que sea factible, los instrumentos debemos aplicarlos a un grupo piloto, para analizar su eficacia y validez, antes de emplearlos de forma masiva.
La evaluación basada en competencias mide lo que los profesionales pueden hacer en representaciones controladas de la práctica profesional.
La evaluación basada en el desempeño mide lo que los profesionales hacen en la práctica profesional real.
Aunque a primera vista estas definiciones pueden parecer ampliamente abiertas, sus implicancias no las son. Algunos trabajos sobre evaluación proponen que todas las evaluaciones en contextos similares a los exámenes tradicionales incluyendo los ECOEs deberían ser ahora referidas como evaluaciones basadas en competencias, mientras que las evaluaciones en la práctica real deberían ser referidas como evaluaciones basadas en el desempeño (Ver Cuadro 4)
Modelo de Cambridge. Rethans y cols proponen un nuevo modelo, designado el modelo Cambridge, que extiende y refina la pirámide de Miller. Invierte su pirámide, enfoca exclusivamente en las dos filas superiores e identifica al desempeño como producto de la competencia, la influencia del individuo (v.gr., salud, relaciones) y la influencia del sistema (v.gr., facilidades, tiempo de práctica). El modelo proporciona una base para la comprensión y diseño de evaluaciones de modo práctico.
Miller se refiere al “demuestra como” como la evaluación del desempeño, sin embargo por definición el “demuestra como” debería ser referido como evaluación basada en competencias en vez de evaluación basada en el desempeño. El triángulo de Miller implícitamente asume que la competencia predice el desempeño. Sin embargo, la relación exacta entre competencia y desempeño es complicada. Factores como presión de tiempo, día de la semana, humor del paciente y médico e impacto del examen anterior influencian en el desempeño clínico como la deficiente competencia individual lo hace en áreas de conocimientos relacionados a dominio específico.
La figura de Miller es muy útil en el ámbito educacional, especialmente para diseñar el currículo médico o los cursos de los estudiantes. Los cuatro estadios pueden fácilmente ser usados para construir un programa educacional que comienza con la asimilación del conocimiento puro (lectura de libros y artículos) y prospera hasta adquirir las destrezas clínicas para el desarrollo del desempeño real en la práctica. Sin embargo, el modelo no es muy útil en términos de evaluación en la práctica real.
Otro inconveniente de la figura de Miller es que fracasa en explicar las influencias de otros factores en el desempeño clínico. Mientras que estas influencias son numerosas, ellas pueden ser arbitrariamente clasificadas como relacionadas con el individuo o relacionadas al sistema.
Las influencias relacionadas al sistema incluyen programas e inicativas del gobierno, expectativas de los pacientes, guías o políticas desarrolladas para la facilidad práctica, tiempo y accesibilidad a otros profesionales de la salud. Las influencias relacionadas al individuo incluyen la salud mental y física del médico, su estado de lucidez al momento de la evaluación del desempeño y sus relaciones con otros, incluyendo pacientes, pares (incluyendo otros profesionales de la salud) y su propia familia.
El triángulo de Miller es una figura estática, mientras que la evaluación contemporánea demanda una figura más flexible.
Para ilustrar ésta y la interacción entre estas influencias individuales y sistémicas y la competencia y el desempeño, proponen una modificación del triángulo de Miller (Ver Fig 2).
Fig 2. Modelo de Cambridge para delinear el desempeño y competencia
Este modelo invierte efectivamente al de Miller. Claramente la competencia es un pre-requisito importante para el desempeño y está por consiguiente representado en el triángulo principal en el centro. Alternativamente, esto puede ser conceptualizado como el destello de luz que la competencia esparce sobre el desempeño, pero que no se ilumina a sí mismo. Proponen al menos dos triángulos adicionales, o destellos de luz, que iluminan las influencias de los factores relacionados al sistema y al individuo que deberían también ser considerados cuando se evalúa el desempeño de un médico. El corolario es que no todos los problemas relacionados con el desempeño de un médico será explicado únicamente por la competencia. Debido a esto, puede haber mayor costo – beneficio en primera instancia examinar otras influencias sistémicas o individuales antes de conducir evaluaciones rigurosas de la competencia médica.
Jones R, Higgs R, De Angelis C, Prideaux D. Changing face of medical curricula. The Lancet 2001; 357: 699-703.
Bosch-Gras C, Florensa-Claramunt E, De Serdio E, Gorroñogoitia A, Medina- Ferre E, Medina-Peralta M, et al. Evaluación de la competencia: Reto o necesidad [publicación periódica on line] Ene-Mar [citado 4 Marzo 2002]; 1 (1): [31 pantallas]. Disponible en URL: http://www.semfyc.es/es/actividades/publicaciones/documentos-semfyc/ docum018.html.
Wass V, van der Vleuten C, Shatzer J, Jones R. Assessment of clinical competence. The Lancet 2001; 357: 945-949.
De Serdio E. ECOE: Evaluación clínica objetiva estructurada. I. Competencias y su evaluación. medicina de Familia 2002; 1:49-52.
Tan CM. An evaluation of the use of continuous assessment in the teaching of physiology. Higher Educ 1992; 23: 255-72.
Hamdorf J M, Hall J C. The development of undergraduate curricula in surgery: III. Assessment ANZ J Surg 2001; 71: 178 – 83
Rolfe I, Mepherson J. Formative assessment: How am I doing? Lancet 1995; 145: 837 – 9.
Wass V, Mc Gibbon D, Van der Vleuten C. Composite undergraduate clinical examination: How should the components be combined to maximize reliability? Medical Education 2001 35:326-330.
Menin O, editor. Pedagogía y universidad. Rosario: Argentina: Ediciones Homo Sapiens; 2000.
Hamdorf JM, Hall JC. Ob. Cit.p. 178-83.
Canales Quevedo I. Evaluación educativa. 1ed Lima (Perú): Universidad Nacional Mayor de San Marcos; 1999.p.11-21.
Venturelli J. Problem-Based Learning in Medicine. En: David T, Patel L, Burdett K., Rangachari P. 1ra ed. The Royal Society of Medicine Press LTD; 1999.p.125-144.
Herman JL, Aschbacher PR, Winters L. A practical guide to alternative assessment. En: Alexandria VA. Association for Supervision and Curriculum Development; 1992.p.35-68.
Miras M, Solé I. La evaluación del aprendizaje y la evaluación en el proceso de enseñanza y aprendizaje. En: Coll C, Palacios J, Marchesi A. (Eds). Desarrollo psicológico y educación II. Psicología de la Educación. Madrid: Alianza; 1990.p.56-70.
Coll C, Martín E. La evaluación del aprendizaje en el currículum escolar: una perspectiva constructivista. En: Coll C, Martín E, Mauri T, Miras M, Onrubia J, Solé I y Zavala A. El constructivismo en el aula. 1ra ed.Barcelona: Graó; 1993.p. 11.
Giordan A, Jacquemet S, Golay A. A new approach for patient education: Beyond constructivism. Patient Education and Counseling 1999; 38: 61-67.
Gagné RM. Les principes fondamentaux de l’apprentissage, Application à l’enseignement (The conditions of learning, training applications). Montreal :HRW ; 1976.p. 172-186.
Ausubel DP. Educational Psychology. A cognitive view. 1ra ed. New York: Holt,Rinehast and Winston; 1968.p. 93 - 102.
Giordan A, Girault Y, Clément P, editors. Conceptions et connaissances. Peter Lange ; 1993.
Giordan A, Girault Y, editors. New learning models. Z’ Editions; 1997.
Gagné RM, editor. The condition of learning. New Cork: Holt,Rhinehart and Winston; 1965.
Bruner JS, editor. De la psychologie cognitive à la psychologie culturelle (From cognitive psychology to cultural psychology). Paris: Eschel Editions; 1991.
Piaget J, Inhelder B, editeurs. La Psychologie a l’Enfant (Children’s psychology). Paris :PUF ; 1966.
Piaget J, editeur. La Psychologie de l’Intelligence (Intelligence’s psychology). Paris: Armand; 1967.
Ausubel DP. Ob. Cit.p. 93-102.
Ausubel DP, Novak JD, Hanesian H, editores. Psicología Educativa: Un punto de vista cognoscitivo. México: Trillas; 1983.
Pozo J I, editor. Teorías cognitivas del aprendizaje. Madrid: Morata; 1989.
García Madruga JA. Aprendizaje por descubrimiento frente a aprendizaje por recepción: La teoría del aprendizaje verbal significativo. En: Coll C, Palacios J, Marchesi A, Eds. Desarrollo psicológico y educación II. Madrid: Alianza; 1990.p. 11-20.
Coll C, Martín E. Ob. Cit.p. 11.
Galo de Lara M. Clasificación y construcción de instrumentos. En: Evaluación del aprendizaje. 1ra ed. Guatemala: Piedra Santa 1989.p.12-60
Canales Quevedo I. Instrumentos de evaluación. En: Evaluación educativa. Lima: UNMSM/Facultad de Educación; 1997.p. 320.
Díaz Barriga Arceo F, Hernández Rojas G. Docente del siglo 21. Como desarrollar una práctica docente competitiva. Estrategias docentes para un aprendizaje significativo. Una interpretación constructivista. 2da.ed. México:McGraw-Hill; 2003. p. 188 – 201.
Berliner D C. But do they understand? En: Richardson – Koehler V, eds. Educator’s handbook. A research perspective. New York: Longman; 1987.p. 125-140.
Genovard C, Gotzens C. Psicología de la instrucción. 1ra ed. Madrid: Santillana; 1990.p.11-20.
Bloom B. Krathwohl D, et al. Taxonomy of educational objectives: Handbook I, The cognitive domain [Taxonomía de los objetivos educativos: Tomo I, El dominio cognitivo]. Nueva Cork. David McKay & Co; 1956.
Biehler R, Snowman J. Psicología aplicada a la enseñanza. 1ra ed. México: Limusa-Noriega; 1990.p.11-20.
Santoyo C. “Un modelo de organización de metas instruccionales”. Revista Mexicana de Psicología 1986; 3 (3): 120-131.
Moreira MA, Novack JD. Investigación en enseñanza las ciencias en la Universidad de Cornell: Esquemas teóricos, cuestiones centrales y abordajes metodológicos. Enseñanza de las Ciencias 1988; 6(1):3-18.
Ontoria A, editor. Mapas conceptuales. Una técnica para aprender. 1ra ed. Madrid: Narcea; 1992.
Novak JD, Gowin DB, editores. Aprendiendo a aprender. Barcelona: Martínez Roca; 1988.
Gage NL, Berliner DC, editors. Educational psychology. Boston, MA: Houghton Mifflin; 1992.
Lizárraga S, editor. Elaboración de simuladores escritos. México: Programa de Publicaciones de la Facultad de Psicología, UNAM; 1992.
Herman JL, Aschbacher PR, Winters L. Cit. Ob.p. 32.
TenBrink TD. “Evaluación”. En: JM Cooper (Coord.). Estrategias de enseñanza. 1ra ed. México: Limusa; 1993.p. 11-20.
Sidhu RS, Grober ED, Musselman LJ, Resnick RK. Assessing competency in surgery: Where to begin? Surgery 2004; 135 (1): 6-20.
Swanson DB. A measurement framework for performance based tests. En: Hart IR, Harden RM, eds. Further developments in assessing clinical competence. Montreal: Can – Heal; 1987. p. 13-45.
Malca-Coronado H Técnicas e instrumentos de recolección, presentación, análisis y procesamiento de la información para la investigación científica. Lima; 2002.p. 110-120.
Miller GE. The assessment of clinical skills/ competence/performance. Acad Med 1990; 65: 563-67.
Wolming S. Validity issues in higher education selection: A Swedish example.Studies in Educational Evaluation 1999; 25:335-351
Messick S. Validity. En: Educational measurement. Vol 3. Lirin RL ed .New York: American Council on Educational/Macmillan; 1989. p. 13-103.
Neufeld VR, Norman GR. Assessing clinical competence. 1st ed. New York: Springer; 1985.p.11-20.
Dauphine D. Determining the content of certification examinations. In: Newble D, Jolly B, Wakeford R. The certification and recertication of doctors: issues in the assessment of clinical competence. Cambridge: Cambridge University Press; 1994. p. 92-104.
Cusimano MD. Standard setting in medical education. Acad Med 1996; 71 Supl 10: S 112-20.
Case SM, Swanson DB. Extended matching items: a practical alternative to free response questions. Teach Learn Med 1993; 5: 107-15.
Sosa-Indicissa M. Apología e introducción al “Paradigma de Dombal”. En: Oliveri N, Sosa-Indicissa M, Gamboa C. Internet, Telemática y Salud 1ª ed. Buenos Aires: Editorial Médica Panamericana; 1997. p. 43-54.
Frijns PHAM, van der Vleuten CPM, Verwynen GM, van Leeuwen YD. The effect of structure in scoring methods on the reproducibility of tests using open ended questions. En: Bener W, Hiemstra RJ, Scherbier AJA, Zwierstra RP, eds. Teaching and assessing clinical competence. Gromingin: Boekwork; 1990.p. 466-71.
Swanson DB. A measurement framework for performance based tests. En: Hart IR, Harden RM, eds. Farther developments in assessing clinical competence. Montreal: Can – Heal; 1987. p. 13-45.
van der Vleuten CPM. The assessment of professional competence: developments, research and practical implications. Adv Health Sei Edu 1996; 1: 41-67.
van der Vleuten. Ob. Cit.p. 41-67.
Swanson. Ob.Cit.p. 13-45.
Wakeford R, Southgate L, Wass V. Improving oral examinations: selecting, training and monitoring examiners for the MRCGP. British Medical Journal 1995; 311: 931-35.
Galo de Lara M. Ob.Cit.p. 12-60.
Schubert A, Tetzlaff JE, Licina M, Mascha E, Smith MP. Organization of a comprehensive anesthesiology oral practice examination program: planning, structure, startup, administration, growth, and evaluation. Journal of Clinical Anesthesia 1999; 11(6): 504-518.
Page G, Bordage G Allen T. Developing key-feature and examinations to assess clinical decision-making skills. Acad Med 1995; 70: 194-201.
Schuwirth LWT, van der Vleuten CPM, de Kock CA, Peperkamp AGW, Donkers HHLM. Computarised care-based testing: a modern method to assess clinical decision making. Med Teach 1996; 18: 294-299.
Gleeson F. The effect of inmediate feedback on clinical skills using the OSLER. En: Rothman AI, Cohen R, eds. Proceedings of the sixth Ottawa conference of medical education 1994. Toronto: University of Toronto Bookstore Custom Publishing; 1994.p.412-15.
Newble DI. The observed long case in clinical assessment. Medical Education 1994: 25:369- 73.
Prece J, Byrne GJA. The direct clinical examination: an alternative method for the assessment of clinical psychiatric skills in undergraduate medical students. Med Educ 1994; 28:120-25.
Shatzer JH, Wardrop JL, Williams RC, Hatch TF. The generalisability of performance of different station length standardized patient cases. Teach Learn Med 1994; 6: 54-58.
Caraccio. Ob. Cit.p. 736-741.
Salas-Perea RS, Hatim - Ricardo A, Rey-Bravo R. Sistema de monitoreo y control de calidad de la competencia y el desempeño profesional. Educ Med Sup 1997; 11(1):17-30
Haddad J. Las necesidades de intervención y el monitoreo de los procesos educativos. En: Haddad J, Clasen Rochke MA, Davini MC eds. Educación permanente del personal de salud. Washington DC: OPS; 1994.p. 136-156.
Miller GE. The assessment of clinical skills/ competence/performance. Acad Med 1990; 65: 563-67.