terça-feira, 17 de outubro de 2017

Ciência: Avaliação das unidades ou concurso de beleza?



Anuncia-se a avaliação das unidades de I&D. Com o regresso da avaliação centrada na visita, ganhamos o contacto visual entre o avaliador e o avaliado, mas não asseguramos uma melhor qualidade da avaliação. Para unidades da dimensão das nossas não há solução simples e barata. Os indicadores bibliométricos têm limitações que todos reconhecem. A avaliação direta por pares tem outras limitações e incertezas. Estas são atenuadas se for feita com rigor e aplicada peça a peça, artigo a artigo. O custo é quase proibitivo. As avaliações tradicionais da FCT e a que agora vai ser feita não passam de concursos de beleza, na linguagem de  John Maynard Keynes (1936).

Foi finalmente publicado o Regulamento de Avaliação e Financiamento Plurianual de Unidades de I&D. Nada de novo, mas muito de curioso. Como é usual, teremos dois critérios relativos ao último quinquénio, o primeiro (A) olhando para a qualidade, mérito, relevância e nível de internacionalização da atividade realizada e o segundo (B) para o mérito científico da equipa.  Um terceiro critério (C) vai analisar a adequação de objetivos /.../ inclusivamente quanto ao plano de contratação de novos investigadores contribuindo para o aumento do emprego científico no próximo quinquénio. Presume-se que o critério (A) não se aplicará a novas unidades que terão de ser avaliadas apenas pela qualidade dos seus membros e da proposta que faz para o futuro.
Parece razoável pedir que cada unidade apresente informação sobre atividades /.../ que considerem mais relevantes evitando listas exaustivas que seriam inúteis pela sua dimensão e impossibilidade de avaliação concreta pelo painel. Já os investigadores doutorados parece poderem apresentar a sua lista exaustiva de publicações no quinquénio, mas não devem ser submetidas referências a indicadores bibliométricos, incluindo factores de impacto. É muito curiosa esta preocupação porque em Portugal nunca foi feita uma avaliação baseada em indicadores bibliométricos.
Cada unidade tem um mínimo (usual) de 10 investigadores doutorados e cada painel internacional vai avaliar pelo menos 4 unidades. Sabemos que muitas unidades têm centenas de investigadores doutorados sendo as pequenas unidades hoje residuais. (Foram eliminadas nas sucessivas rondas de avaliação!) A abrangência dos painéis é sempre um problema porque os avaliados vêm vantagens em serem avaliados por painéis muito focados nas suas áreas de trabalho, no limite por um painel especialmente desenhado para a sua unidade. A redação sugere que se vai evitar este excesso permitindo a cada painel a comparação entre pelo menos 4 unidades. É pouco, mas compreensível como limite mínimo. Vamos, portanto, ter painéis internacionais a avaliar e visitar 4 ou mais unidades, algumas com centenas de membros doutorados. Nada de novo e já sabemos o que vai acontecer.
Surpreende a necessidade de proibir as referências a indicadores bibliométricos, incluindo factores de impacto. É inútil porque nenhum avaliador confiaria nos indicadores propostos pelos avaliados pela simples razão de que teria de assegurar que os critérios e as metodologias de cálculo são uniformes o que não ocorreria! Seriam vistos como uma tentativa de influenciar ou de distorcer a visão do avaliador.
Face a uma unidade com centenas de membros doutorados, como pode o painel aplicar os critérios definidos no Regulamento.
Critério A. Para as unidades que se mantenham sem grandes alterações da sua composição, uma leitura rápida da informação sobre atividades e produção científica que considerem mais relevante permite ter uma impressão, mas dificilmente poderá decidir se estes resultados são proporcionados à dimensão da equipa.
Critério B. Espera-se que o painel analise os currículos de todos os membros doutorados, que podem ser 10 ou algumas centenas. Para cada membro tem uma informação muito rica. Terá uma descrição do trabalho e resultados do investigador com uma lista de publicações que, numa área científica típica, poderá ir da dezena à centena de artigos. Terá títulos e nomes de revistas. Não podendo ser influenciado pelo fator de impacto, terá de evitar deixar-se influenciar pelos títulos ou pelo nome das revistas. Vai ser sério e ler os artigos, pelo menos aqueles cujos títulos pareçam mais interessantes ou terá o investigador sugerido os 5 artigos mais relevantes para ele ler.  Irá ler os 5 artigos de cada autor, de cada um da centena ou centenas de membros da unidade. Alguém acredita que os membros do painel vão cumprir?
Critério C. Esta é a parte fácil. Propor objetivos ambiciosos é fácil se assumirmos que nunca serão avaliados a posteriori como agora não vai ser avaliado se os objetivos anteriormente propostos foram cumpridos. E satisfazer a expectativa de que a unidade vai dar um enorme contributo para o aumento do emprego científico, não é difícil assim venha a haver dinheiro da FCT!
Mas ainda falta a visita que o painel fará à unidade onde irá ouvir dos sucessos passados e dos planos futuros. E terá aqui a oportunidade de emendar todas as incertezas que a leitura do enorme relatório submetido poderá ter deixado. No fim, não terá dúvida em colocar a unidade num dos cinco níveis previstos.
Este procedimento não difere no essencial dos seguidos nas avaliações feitas em 1996, 1999, 2002, 2007 e 2009. Como todos recordam, as visitas foram determinantes do resultado e as grandes unidades tiveram sempre uma aparente vantagem. As mal classificadas tendem a ser as menores. Isto é facilmente compreensível, mesmo admitindo que os painéis dão o seu melhor e mais honesto esforço para premiar o melhor e assinalar o mais frágil. Face à dificuldade de avaliar a proposta submetida pela unidade, para além de uma impressão geral, a visita torna-se a componente dominante. As unidades de maior dimensão sempre terão alguns investigadores com bom currículo e com a força necessária para fazer uma apresentação convincente. As mais pequenas não podem esconder as suas fragilidades e são naturalmente atingidas pelas críticas sérias dos painéis.
O nosso processo de avaliação de unidades de I&D aproxima-se, nos objetivos, das avaliações feitas a departamentos universitários. As reservas em relação aos indicadores bibliométricos são comuns a muitas disciplinas em alguns países. Mas a alternativa não é descarregar a responsabilidade sobre um painel que fica irremediavelmente perdido num excesso de informação em bruto. A solução inglesa e italiana é começar por fazer a avaliação individual de cada artigo submetido, uns 4 por investigador considerado. É seguramente um processo muito caro porque exige uma leitura cuidada e uma classificação de cada um destes artigos. São algumas dezenas de milhão de euros nesses países. A alternativa adotada nos países nórdicos é construir métricas simples para valorar as publicações de cada autor para chegar a uma avaliação individual que depois é reunida na avaliação do departamento ou da universidade. A Espanha tem uma estratégia similar na avaliação individual para decidir os suplementos remuneratórios dos docentes.
As avaliações baseadas em métricas predefinidas estão expostas a críticas sérias. As avaliações por pares são caras, imprevisíveis e muitas vezes divergem do senso comum e, quase sempre, da opinião dos interessados. Resta o esforço de satisfazer a presumida perceção da maioria no sentido dado ao “concurso de beleza” de John Maynard Keynes. Pode esperar-se que a opinião recolhida nas visitas vá neste sentido e alguma “gestão política” dê o retoque final necessário.
Pode ser embaraçoso notar que é esta mesma teoria que tem sido usada para explicar o comportamento irracional dos mercados financeiros [Ver Richard Thaler, Prémio Nobel da Economia, 2017, em Misbehaving: The Making of Behavioural Economics, Allen Lane, Londres, 2015.]

José Ferreira Gomes
Secretário de Estado do Ensino Superior e da Ciência no XX Governo

Sem comentários:

Enviar um comentário