REVISTA DE GASTROENTEROLOGÍA
¿Fue el estudio apropiado para la
pregunta de investigación
y se adelantó correctamente?
Establecer si el estudio reportado en un artículo fue adecuado para responder la pregunta de investigación, implica la evaluación de los métodos empleados por los autores. Esta tarea es más sencilla si el lector tiene experiencia como investigador clínico. Sin embargo, las guías mencionadas anteriormente no están diseñadas para quienes producen investigación sino para el grupo mucho más grande que la consume como lectores de artículos de revistas científicas (1,6-12).
Una vez que el lector tiene una idea clara de la pregunta de investigación, debe evaluar los métodos descritos por los investigadores en el artículo. El objetivo fundamental de este ejercicio es determinar si la estrategia de investigación empleada puede tener errores que invaliden sus resultados. En este contexto, se define validez como el grado en el que los datos obtenidos al medir un fenómeno representan la verdadera dimensión de lo medido (9). Un ejemplo clínico simple puede ayudar a aclarar el concepto. Todos los días los clínicos que brindan cuidados en salud a niños, miden el peso de sus pacientes empleando un instrumento, en concreto una báscula. El resultado obtenido después de medir el peso de un niño será válido si corresponde al verdadero peso del niño. Los estudios de investigación no son, en este sentido, muy diferentes de una balanza: sólo son instrumentos diseñados para medir un fenómeno complejo.Como instrumentos de medición, son susceptibles a errores de medición que pueden producir resultados equivocados. Estos resultados erróneos (inválidos) se pueden agrupar en dos grandes categorías según la fuente primaria de error: sesgo o variación por el azar.
El ejemplo de la balanza también permite ilustrar la relación que, como fuentes de error, tienen el sesgo y el azar. Asumamos que queremos medir el peso de un lactante cuyo verdadero valor (que, en realidad, no conocemos) es 8,0 kg. Habrá sesgo si utilizamos una escala que tiene un defecto mecánico que hace que los resultados sean sistemáticamente, digamos, 0,5 kg superiores al verdadero valor. En este caso, todas las veces que se emplee la escala para medir el peso de este niño o de cualquier otro se obtendrá una medida falsa que difiere del valor verdadero en la misma dirección y por el mismo valor aproximadamente. Por otra parte, el papel del azar se hace evidente al medir el peso de un mismo niño varias veces consecutivas bajo las mismas condiciones, incluso usando una báscula en buen estado. Es probable que cada medida obtenida difiera ligeramente del verdadero valor, arrojando resultados que, algunas veces, son superiores y otras, inferiores; es decir,q ue difieren de la verdad de forma no sistemática. La diferencia entre el verdadero valor y cada una de estas observaciones, debida solamente al azar, se llama error aleatorio (9). En la vida real, por supuesto, las dos fuentes de error operan simultáneamente.
De manera similar a lo descrito para la medición del peso de un niño, las observaciones y las medidas obtenidas durante una investigación se pueden ver afectadas por el sesgo o por el azar, lo cual haría que sus resultados sean falsos, es decir,i nválidos. Varios autores amplían el concepto de validez aun más. La validez interna es la extensión en la que los resultados del estudio son correctos para la muestra de sujetos que participaron en el estudio. La validez interna está determinada por la calidad del diseño, de la recolección de los datos y de su análisis. La validez externa, también llamada posibilidad de generalización, es la extensión en la que los resultados de una observación en una muestra de individuos son válidos para sujetos que no participaron en el estudio. En otras palabras, la validez externa expresa la presunción de que los sujetos del estudio son comparables a otros fuera del estudio (8,9). Por supuesto, para que se puedan aplicar a otros sujetos, los resultados del estudio deben ser válidos internamente. Por su parte, la generalización de los resultados de un estudio, aún en caso de muy alta validez interna, se basa fundamentalmente en la opinión y, por tanto, se puede interpretar de manera diversa y en cierto grado divergente por personas racionales. Más adelante en este artículo se discutirán los principios para establecer la validez externa de los resultados de una investigación clínica.
A pesar de ser tan importante,hay evidencia que muestra que los lectores no evalúan la metodología utilizada por los investigadores en los artículos que leen y saltan directamente de la introducción a los resultados del reporte, lo que implica asumir que los resultados son válidos. Fitzgerald distribuyó entre un grupo de estudiantes una copia falsificada de un artículo, insertando los materiales y métodos de un estudio sobre hipofisectomía en retinopatía diabética en otro artículo que describía algunos aspectos hematológicos de la retinopatía diabética. Solamente uno de los miembros del grupo notó el cambio; los demás lectores aceptaron las conclusiones del artículo falso, sin examinar los métodos con los que se llegó a dichas conclusiones (13). El autor especula que "la gran cantidad de material que se presenta en los años de formación, la presión por memorizarlo … y la comodidad que representa el dogmatismo frente a la incertidumbre clínica, desalientan el sano escepticismo ante la palabra escrita ". Dado el potencial para artículos erróneos mencionado antes (3-5) es inapropiado asumir que todos los estudios se adelantaron con métodos adecuados por el sólo hecho de que han sido publicados.
La serie más voluminosa de artículos con guías de apreciación crítica de la literatura para los lectores sugiere seguir varios pasos consecutivos para evaluar la validez y la posibilidad de generalización de un artículo (1). Primero, el lector debería determinar si los resultados del estudio son válidos internamente. Como se mencionó anteriormente, esto se logra revisando los métodos utilizados por los investigadores. Sólo si el artículo describe métodos que han manejado apropiadamente las principales fuentes de error en el diseño empleado, se justifica proceder con los pasos siguientes. En caso contrario, o sea, si se considera que el artículo tiene errores, no es útil continuar su lectura. En segundo término, el lector debe proceder a determinar cuáles son los resultados del estudio y su impacto clínico potencial. Finalmente, el lector debe establecer la medida en que dichos resultados le serán de utilidad para la atención de sus propios pacientes, lo cual implica el establecimiento de la validez externa.
Las siguientes secciones de este artículo amplían algunos de los aspectos relacionados con estos tres pasos. Sin embargo, es conveniente mencionar dos hechos antes de continuar. Lo más frecuente es que el resultado de este proceso no sea una respuesta en "blanco o negro ". Esto puede representar un inconveniente para la toma de decisiones clínicas, pues, al profesional de la salud le gustan las respuestas directas que le permiten saber si el artículo "está bien o mal ", si el tratamiento allí descrito "sirve o no " y si los resultados se aplican o no a sus pacientes. Infortunadamente, la evidencia de la literatura viene en tonos de gris y, por tanto, en muchas ocasiones, lo más que se puede decir es que los resultados pueden ser válidos, que su efecto quizás es importante y que, por tanto, podrían mejorar la atención en salud. Finalmente, es necesario además tener en mente que no existe ningún estudio perfecto. Todos los reportes tienen defectos menores e, incluso,moderados que no necesariamente llevan a resultados inválidos. El uso muy riguroso de los criterios de apreciación crítica puede llevar a que nunca se encuentre información de suficiente validez en la cual basar nuestras decisiones clínicas.
Evaluación de la validez interna. La Tabla 1 presenta los principales aspectos metodológicos que deberían ser bien manejados por los investigadores de cada uno de los principales tipos de publicaciones (1, 6-8, 10-12). Como ilustración se describirán en mayor detalle las guías para evaluar un artículo que describe una intervención preventiva o terapéutica (14). Muchos de estos aspectos son aplicables a los otros tipos de publicaciones.
El primer aspecto que se debe considerar para este tipo de pregunta de investigación se relaciona con el método empleado para asignar los sujetos del estudio a las intervenciones que se están comparando. El método óptimo es la asignación aleatoria o al azar, que emplea un sistema análogo a arrojar una moneda al aire. La razón principal es que la mayor parte de las consecuencias de muchas condiciones clínicas son modificadas por muchos factores además del tratamiento, dentro de los que se cuentan la severidad de la enfermedad, la presencia de procesos patológicos asociados y otros factores que afectan su pronóstico como la edad, el género y muchos más. Adicionalmente, pueden existir factores, aún no identificados, que también modifiquen los resultados. Con el objeto de aislar el efecto de la intervención de todos los restantes factores, el investigador busca crear grupos que sean comparables en todos estos otros aspectos que cambian el pronóstico, de modo que la única diferencia entre ellos sea el tipo de tratamiento recibido. Si los resultados del estudio muestran que hay diferencias en los resultados finales entre los grupos, el investigador podrá atribuir con confianza dichas diferencias a los tratamientos recibidos dado que los grupos fueron idénticos entre sí en los demás aspectos.L a aleatorización contribuye a este propósito distribuyendo los factores de buen y de mal pronóstico, tanto conocidos como desconocidos, de manera similar en los dos grupos debido a que cada sujeto participante en el estudio tiene la misma probabilidad de ser tratado con cualquiera de las intervenciones que se están comparando. Por ejemplo, se sabe bien que el bajo peso al nacer es un fuerte predictor de mortalidad en el período neonatal. La distribución balanceada de esta variable pronóstica en un estudio que compara un tratamiento en neonatos eliminará el bajo peso como explicación para las diferencias encontradas entre los grupos del estudio, si éstas existen. Al hacer esto, la aleatorización está eliminando una distribución desequilibrada de los sujetos en los grupos del estudio como fuente de sesgo. Los estudios sin asignación al azar siempre tendrán limitaciones para separar el efecto del tratamiento del dependiente de otras variables que pueden afectar la respuesta a los tratamientos.
El segundo aspecto metodológico en los estudios que comparan las intervenciones es el número de sujetos que se perdieron durante el estudio y cómo fueron manejados en el análisis de los resultados. Bajo condiciones ideales, todos los participantes en la investigación deberían ser seguidos hasta el final del estudio para determinar su resultado definitivo. El problema con la pérdida de sujetos es que el investigador no puede establecer el resultado final para los individuos perdidos y es muy posible que la falla del paciente para cumplir con el seguimiento programado se relacione con la presencia de uno o más desenlaces de interés, sean favorables o desfavorables. Otra analogía clínica puede ser de utilidad para aclarar este punto. Ocasionalmente, los clínicos pierden de vista a sus pacientes luego de recomendarles un tratamiento. En estas circunstancias, lo más probable es que la condición del sujeto haya evolucionado de forma que haga innecesario, a los ojos del paciente, regresar al centro original debido a que la condición mejoró o empeoró. En otras palabras, los pacientes desaparecen porque presentan desenlaces desfavorables (incluso, la muerte) o porque mejoran. Adicionalmente, los individuos que permanecen en los estudios tienen un pronóstico diferente al de aquéllos que los abandonan (8-10, 14). Por último, los sujetos del estudio deberán ser incluidos en el análisis en el mismo grupo al que fueron originalmente asignados (análisis por "intención de tratar "). Con frecuencia, los participantes en los estudios olvidan tomar los medicamentos o deciden no hacerlo. En estas circunstancias, parecería apropiado excluir los análisis. Hacerlo, sin embargo,no sería correcto. El punto central es que usualmente hay una asociación entre las razones para no tomar el medicamento y los resultados finales.Varios experimentos han mostrado que los sujetos que no toman el tratamiento tienen un pronóstico peor al observado en quienes toman el medicamento, aun si este tratamiento es un placebo (8, 9, 14).
Las guías para evaluar la validez interna de un estudio que describe una intervención incluyen tres aspectos adicionales que no se muestran en la Tabla 1. En primer lugar, los clínicos, los pacientes y el personal del estudio deberían permanecer "ciegos " al tratamiento recibido por cada participante. Esto reduce la probabilidad de sesgo al establecer si un individuo presentó el desenlace de interés, especialmente si dicho desenlace se define mediante criterios subjetivos (por ejemplo, la persistencia de signos o síntomas). En segundo lugar, los autores deberían mencionar si los grupos del estudio fueron similares al comienzo de las intervenciones; esto permite a los lectores establecer la dirección y la magnitud de diferencias de base que pueden confundir el efecto del tratamiento, como se explicó anteriormente. Por último, los grupos del estudio deben haber sido seguidos de la misma manera y por el mismo período de tiempo, y deben haber recibido, en la misma medida, otros tratamientos diferentes al que se está evaluando pero que pueden afectar el desenlace. Si el seguimiento es más frecuente en un grupo, es posible que se encuentren más eventos en este grupo. De manera similar, la aplicación diferencial de otras intervenciones a los grupos del estudio puede contribuir a diferencias en los desenlaces. En estos dos casos, se habría presentado una forma de sesgo conocida como cointervención.
Evaluación del impacto clínico potencial de los resultados. Luego de establecer que los métodos empleados por los investigadores fueron apropiados, es necesario evaluar el impacto potencial de los hallazgos del estudio. Este impacto potencial depende de dos factores: el tamaño y la precisión del efecto reportado en el artículo. De nuevo, estos conceptos se explicarán en el contexto de un estudio que compara dos intervenciones pero que son aplicables a los restantes tipos de estudios.
El objetivo final del cuidado en salud es mejorar el bienestar de los individuos reduciendo la probabilidad de desarrollar enfermedades como resultado de intervenciones preventivas, o intentando reducir el riesgo de desenlaces indeseables (muerte, recaídas, complicaciones o discapacidad) por diversas formas de tratamiento, si la enfermedad ya está presente. De esta manera, para tener un impacto positivo en la salud de los individuos un experimento aleatorio controlado debería demostrar que el riesgo de la enfermedad o de resultados indeseables es menor en el grupo que recibe la nueva intervención al compararlo con el riesgo del grupo que recibe el tratamiento convencional.