terça-feira, 9 de julho de 2019

Avaliação FCT: Como agradar a gregos e a troianos


Foram agora apresentados os resultados preliminares da avaliação das unidades de investigação acreditadas pela FCT. Conseguimos um resultado fora de série: ao longo das sete avaliações promovidas pela FCT, nunca tínhamos conseguido ter uma percentagem tão alta (64%) de unidades com a menção de Muito Bom ou mais; nunca tínhamos conseguido uma percentagem tão baixa (12%) de unidades com a menção de Razoável ou Insuficiente. Problema: os resultados foram tão extraordinariamente positivos que se torna inevitável constatar que algo não bate certo.


Note-se que as unidades de maior dimensão tendem a ser mais bem classificadas pelo que o panorama real é ainda melhor do que os valores globais mostram. Nesta avaliação, 78% dos doutorados estão em unidades com a menção de Muito Bom ou Excelente e apenas 5% em unidades com a menção de Razoável ou Insuficiente.

Em termos comparativos com as avaliações anteriores, a melhoria é ainda mais surpreendente porque a pressão para formar novas unidades, mesmo em situação marginal, aumentou muito nos últimos anos, desde que a Agência de Avaliação (A3ES) passou a usar estes resultados para a acreditação dos cursos. Em situações limite, a existência de algumas universidades pode depender do resultado desta avaliação. Consequentemente, podemos pensar que a candidatura de muitas das unidades com menção mais baixa resulta de tentativas de pequenos grupos para salvar o curso em que lecionam ou a instituição que os contrata. Ou seja, com esta pressão ao fundo da tabela, significa que todas as unidades razoavelmente estabelecidas têm menção de Bom ou melhor! Uma situação invejável. Como lastimarão os nossos vizinhos espanhóis por não se poderem apresentar a esta avaliação. Como serão infelizes os nossos amigos espanhóis quando souberem destes resultados depois de terem lido há pouco o título de caixa alta do El País em 27 de fevereiro passado: El 50% del professorado universitário fijo investiga poco o nada!

Note-se que, de entre todos os docentes doutorados a 100% de dedicação a universidades públicas, 68% estavam em unidades com classificação de Bom (ou superior) logo na 1ª fase da avaliação de 2013. Em unidades com a menção de Muito Bom ou melhor, estavam 52% dos docentes. Ou seja, o Muito Bom seria, em Portugal, o limiar de qualidade abaixo da qual, de acordo com o El País, os professores investigam “poco o nada”.
Registe-se que entre 2013 e 2018, segundo os inquéritos ao potencial científico, o número de investigadores no setor Ensino Superior somado ao das IPSFL (instituições privadas sem fins lucrativos) se manteve constante em cerca de 29 150 - dados da DGEEC:.em 2013, investigadores no ensino superior 2 849 e em IPSFL 52318; em 2018, no ensino superior 28 628 e em IPSFL 506. O número de doutorados que se apresenta inserido em unidades de investigação sobe, no mesmo período, de 15444 para 19019, o que terá de ser interpretado como uma maior participação em unidades de investigação de docentes de universidades e institutos politécnicos, públicos e privados, pelas razões já sugeridas acima. Acresce que a condicionalidade de atividade mínima dos membros integrados foi suprimida nesta avaliação, o que pode assim ter atraído mais investigadores inativos. E, surpreendentemente, os painéis não detetaram nada de errado.

Como explicar estes resultados tão improváveis? Como de seguida se explica, a raiz do problema está na metodologia de avaliação, que se afastou da prática anterior e optou por uma abordagem inevitavelmente superficial.


1.     Um problema metodológico: a avaliação “concurso de beleza”

A avaliação das unidades de investigação promovida pela FCT retomou o modelo de painéis (supostamente) soberanos, neste caso com 42 painéis de 5 a 6 membros que recebem os relatórios de atividades das unidades e os respetivos planos de futuro. Depois de uma análise documental, os avaliadores fazem uma visita rápida de cerca de 3 horas a cada unidade para verificarem as condições locais de trabalho e falarem com os investigadores.

Este é o modelo típico das avaliações para a melhoria, em que a função do painel externo não vai além do reforço das perceções internas que, no seu entender, poderão contribuir para a melhoria de desempenho futuro. Não se pretende, em geral, uma avaliação quantitativa ou categorial que dificilmente se pode pedir a um painel que, para tal, teria de ler e analisar detalhadamente relatórios e seguir as referências das publicações produzidas. Neste caso, cada painel teve de avaliar até 23 unidades e, para ser rigoroso, teria de avaliar individualmente a produção de cada investigador. Se alguns painéis teriam de analisar a produção de uns 200 doutorados, outros teriam o encargo de apreciar a produção de mais de mil investigadores doutorados, 1762 no caso extremo. Uma tarefa claramente impossível.

Por outro lado, um painel de 5 ou 6 membros não tem competência para avaliar a produção científica de todos os membros ou de todas as áreas de investigação de uma unidade. É impossível reunir meia dúzia de químicos que façam a leitura crítica de todos os trabalhos de uma qualquer unidade de química. Se um painel não pode ter competência para apreciar todo o trabalho de todas as linhas de atividade das unidades na sua área e se não se pode esperar que faça uma análise exaustiva do trabalho produzido por todos os investigadores que nela trabalham, qual será então o propósito destes painéis? E, com que expectativa é que os seus membros aceitam esta função?

Certamente, cientistas experientes são capazes de apreciar o dinamismo e a relevância dos temas de trabalho de investigadores da sua disciplina, ainda que não possam analisar cada trabalho individualmente. Podem formar uma opinião sobre um relatório e podem complementar essa opinião com as conversas mantidas na breve visita. Para uma unidade pequena, digamos até 30 investigadores doutorados, é possível que todas as linhas de atividade sejam escrutinadas. Para uma unidade maior isso é impossível. Do relatório, o avaliador irá recolher alguns pontos que pela proximidade aos seus interesses (ou desinteresses) se salientem e terá de deixar fluir a visita para pessoas e temas decididos pela unidade. O resultado depende mais da boa estratégia do coordenador da unidade na preparação do relatório e, crucialmente, da organização da visita. O sucesso poderá depender da escolha das pessoas e dos temas de investigação selecionados para a apresentação da unidade e, com cem, duzentos ou mais doutorados, haverá muito por onde escolher. A menção final da avaliação resulta certamente do que o painel viu na unidade, mesmo admitindo que faz essa observação com toda a diligência possível e que, em geral, haverá alguns cientistas muito experientes nesses painéis.

Mas o que o painel vê estará longe de ser tudo o que há na unidade. A menção de qualidade final não poderá traduzir de forma completa a qualidade científica de toda a unidade, mas apenas daquilo que os membros do painel puderam ver e lhes foi mostrado. Para unidades de grande dimensão, o que podem ver é certamente uma pequena parte do que foi feito e os painéis não poderão ir além de uma impressão. Poderá ser útil para guiar a melhoria da unidade, mas falhará na intenção de influenciar o comportamento de toda a unidade. E toda a unidade vai ser financiada em função desta impressão. É esta realidade que me levou a escrever no Observador em 17 de outubro de 2017 uma apreciação do regulamento deste processo de avaliação que intitulei “Ciência: avaliação ou concurso de beleza”. O que a FCT tem promovido, não passa de um concurso de beleza! Mesmo admitindo que os membros dos painéis são cientistas honestos, competentes e experientes, o resultado não pode ir além de uma impressão superficial do que de facto é produzido na unidade de investigação. Não seria possível fazer melhor?

Para entidades da dimensão de muitas das nossas unidades de investigação, o único recurso disponível é o uso de métricas, apesar de todas as suas limitações. Assim se faz em todo o mundo para avaliar universidades e países. Sem mais informação e na impossibilidade de lerem (e entenderem) todas as publicações, os avaliadores terão começado por contar o número de artigos, mas esta é certamente a pior de todas as métricas. Apesar da proibição estrita do recurso a qualquer tipo de métricas na avaliação de 2018, a verdade é que elas foram discricionariamente solicitadas pelos painéis, fornecidas pelos coordenadores e referidas como elemento de avaliação nos relatórios. Esta foi a pior das soluções imagináveis. Usaram-se métricas, mas sendo recolhidas e construídas por cada uma das unidades não são comparáveis.


2.     A avaliação das unidades de 2013-2014

A avaliação das unidades de investigação promovida em 2013-14 foi criticada na altura e o relatório da equipa de coordenação desta mais recente avaliação ainda sentiu a necessidade de a comentar negativamente, nem sempre com argumentos verdadeiros. Terá entendido que a reprodução do que tinha dito há anos seria agora aceite sem mais escrutínio. Vale a pena revisitar estes argumentos.

Na avaliação de 2013, foi opção da FCT seguir uma metodologia diferente da usual. Mais distanciada dos interesses locais, não fazendo a escolha direta dos avaliadores. Contratou, a ESF, European Science Foundation, uma entidade europeia com experiência de tomar decisões com implicações em mais de dezassete mil milhões de euros por ano. Esta entidade adotou uma metodologia que permite ver de mais perto o trabalho de cada linha de investigação das unidades, introduzindo um sistema de avaliação remota do tipo que é usado para artigos em publicação ou para projetos de investigação. Pode assim ter peritos mais próximos do trabalho reportado. Foram usados 659 peritos, bastante mais que os 223 membros dos 42 painéis nomeados para 2018. O objetivo foi ter três avaliações independentes de cada unidade, antes da discussão em painel. A metodologia adotada aproximou-se da que a ESF usa na avaliação de projetos, alguns mais relevantes financeiramente do que o financiamento a atribuir às unidades portuguesas. Os sete painéis constituídos pela ESF tinham uma função de harmonização das avaliações de cada perito individual e de cada painel. As visitas dos painéis às unidades mais bem classificadas tinham uma função de afinação do resultado a que já teriam chegado depois das avaliações individuais dos peritos e da harmonização em painel. O resultado final terá sido muito menos influenciado pela visita.

A primeira crítica à metodologia de 2013 é dirigida ao número de painéis, que nem sempre teriam especialistas reconhecidos na área de trabalho da unidade. É verdade, mas omite que todos os relatórios tiveram três avaliações independentes por peritos especializados, o que é impensável no modelo de 42 painéis de visita. No modelo da ESF, a visita é muito secundária, enquanto no modelo tradicional da FCT a visita tende a ser determinante do resultado.

A acusação mais ácida foi a de que a FCT teria querido, em 2013, matar metade do sistema científico ao apontar para cerca de 50% das unidades avaliadas em categorias de nenhum ou de baixo financiamento. Omite-se que não existem nem nunca existiram critérios absolutos para a atribuição de uma menção de qualidade a entidades de investigação (para além da rejeição daquelas que eventualmente sejam consideradas não aderentes à metodologia e à prática científica). Em qualquer processo sério de avaliação, poderá pedir-se uma seriação ao painel de peritos, mas a decisão dos limiares de corte é sempre “política”, depende da orientação que a agência de financiamento pretenda dar ou da disponibilidade financeira.

No caso presente, e como se vê no quadro apresentado acima, a distribuição das menções está perfeitamente alinhada com as avaliações anteriormente feitas pela FCT, sempre por decisão da FCT e não dos painéis de peritos. A diferença estaria então no baixo financiamento atribuído às unidades com a menção de Bom.  Foi também criticado o baixo financiamento das que tiveram a menção de Bom, apesar de as 47 unidades melhor classificadas dentro da categoria de Bom terem logo beneficiado de um Fundo de Restruturação Estratégico de 12,3M€ para 2015-18. Mais tarde, outras 96 unidades, independentemente da sua avaliação, vieram a beneficiar de um Fundo de Recuperação com o total de 6,3M€ para 2016-17. Estranhamente, só este segundo reforço é agora lembrado pelos coordenadores da avaliação de 2018.

A avaliação de 2013 usou uma metodologia rigorosa típica da avaliação de projetos, mesmo de projetos de grande vulto, e procurou ser seletiva numa época em que o volume de candidaturas crescia, não só pelo crescimento da comunidade, mas também porque a sobrevivência de algumas instituições de ensino superior e dos seus cursos de mestrado e doutoramento já dependia da avaliação. Poderá argumentar-se que a avaliação de entidades de investigação deveria seguir outros procedimentos e podem encontrar-se exemplos de boas práticas em muitos países europeus e noutras zonas do mundo. Para que a avaliação tenha um efeito percetível nas políticas de recrutamento e de promoção das instituições, é necessário que seja compreensível, ainda que não pública, a relação entre o desempenho individual ou de pequenos grupos e a menção global associada à universidade ou à (grande) entidade de investigação.

Os exemplos mais bem-sucedidos e mais estudados são os da Inglaterra, da Itália e da Austrália em que são lidos e avaliados três ou quatro trabalhos (artigos convencionais ou de outro tipo) de cada investigador submetido a avaliação. Assim se ultrapassa nesses países a pressão para publicar muito e se estimula que se publique melhor. Outros sistemas têm sido desenvolvidos, de que o dos países nórdicos merece consideração. Algum tipo de métrica é quase sempre usado, mas sempre moderado de alguma forma pelo parecer de pares. Isto é, as métricas são geralmente utilizadas para iniciar uma discussão sobre qualidade e mérito e não como forma de a encerrar. Não seria difícil encontrar um caminho de avaliação das unidades que servisse melhor as próprias unidades e que estimulasse as universidades e os institutos politécnicos a serem mais cuidadosos na seleção dos docentes cientificamente mais promissores. Não parece ser este o objetivo da FCT e dos decisores políticos que a tutelam.


3.     Para que serve uma avaliação que visa agradar a gregos e a troianos?

É uma pergunta fundamental: para que servirá todo este exercício de avaliação periódica, sempre muito ao sabor dos humores políticos do momento? A consequência primeira é a distribuição de 400 milhões de euros em 4 anos, acrescidos do financiamento de investigadores e estudantes de doutoramento. Um pouco mais de 50% do prémio vai para as unidades com a menção de Excelente que são 31% do número de unidades avaliadas (com 43% dos investigadores). O prémio para a excelência é um diferencial de sete pontos percentuais, uma vantagem demasiado escassa para evitar os cortes significativos de que as excelentes vieram a público queixar-se, apesar da sua nota máxima. Sim, muitas unidades obtiveram agora a nota máxima e vão sofrer cortes no financiamento!

Ao contrário do que estranhamente acontecera em 2003 e em 2007, esta avaliação seguiu o bom exemplo de 2013 e convidou também os laboratórios associados a se submeterem a avaliação. Os resultados não foram sempre os mais esperados: a menção de excelente escapou a vários destes. Garante-se o silêncio de todos prometendo para breve um concurso para a renovação do estatuto e a criação de mais uns tantos. Algumas unidades que sentem ter já dado repetidamente prova do seu bom desempenho, mesmo superior a alguns laboratórios associados, ensaiam movimentos sempre estancados pela expectativa de que o seu dia chegará e de que a alternativa poderá ser cruel. Uma diferenciação de 7 pontos percentuais entre os excelentes e os muito bons não justificará todo o esforço do exercício, mas logo aparece a promessa sempre repetida de que nada terão a recear da dureza do frio exterior.

É difícil agradar a Gregos e Troianos. Os Gregos foram selecionados cuidadosamente e depois bem alimentados ao longo de muitos anos. Cresceram e, em geral, frutificaram na proximidade e por obra e graça de Atena. Construíram uma rede de protegidos, não sendo o mundo imaginável sem essa rede de dependência. Mantiveram o pacto de proteção mútua. Não há registo de que algum Grego tenha algum dia caído no infortúnio de uma má avaliação que seria certamente “injusta”. Em nenhum momento estes deixaram de apoiar Atena, garantindo-lhe o culto diário e participando na procissão triunfal até ao areópago na maior festa anual de celebração da deusa e de agradecimento pela proteção dispensada ao longo do ano. A festa dura normalmente 3 dias e é marcada por oráculo divino logo após o solstício de verão. Esta aliança mantém-se ao longo dos anos por ter criado uma dependência mútua com vantagens evidentes. Regularmente, os sacerdotes chefes são chamados ao templo para um convívio que os faça sentir parte do comando da liga. E o império reforça-se moral e materialmente. De vez em quando aparece um troiano insatisfeito que não aceita a sua posição subalterna, que também se acha com direito a navegar no mare nostrum. Sente que tem o papel de auxiliar no exército romano, cabendo-lhe demonstrar arduamente no dia a dia a sua força e mostrar resultados, sem nunca ser admitido à visão beatífica de Atena. Nunca estes troianos se atreveram a estragar a festa de Atena, mendigando a promessa de que alguns poderão vir a ser aceites na liga dos eleitos. Assim demonstrem a fidelidade sempre exigida aos verdadeiros gregos. Por estes dias, há sinais de que mais alguns troianos se sentem com algum direito aos favores de Atena.


4.     Que futuro para o governo da Ciência?

Portugal merecia um sistema de governo da ciência mais moderno e eficaz. Passámos 4 anos a falar muito de “emprego científico” e pouco dos objetivos sociais e económicos desta empresa científica. O emprego científico deveria ser apenas um meio para atingir objetivos que beneficiassem todos os portugueses. É do esforço de todos os portugueses que o sistema científico se alimenta e eles têm o direito a um retorno apropriado. Para isso, precisamos de um sistema menos partidarizado e mais bem gerido na sã competição interna. O sistema científico merece uma organização robusta de autorregulação sem a intromissão diária nem o protagonismo sempre presente de um poder político, mesmo quando este tente fazer-se ver com o paternalismo associado ao despotismo iluminado de outra época.

Autorregulação significa estabilidade na prossecução dos objetivos definidos pelo poder político legítimo, mas sem qualquer interferência nos processos de avaliação. Tudo diferente do que temos. Como no Ancien Régime, uns tantos têm direitos perpétuos e hereditários e não imaginam que a história os possa algum dia deixar para trás. Muitos não precisariam dessa proteção para vencerem em campo plano, mas parece recearem que a turbamulta irrompa. Para o sistema científico português, é tempo de assumir a idade adulta e de mostrar que já pode viver num mundo competitivo em que todos os dias lhe vai ser exigida a prova do seu mérito.

O sistema científico português insiste em manter uma organização anacrónica e única no mundo. Instituições frágeis e inconsistentes sobrevivem do tempo em que as universidades (e os institutos politécnicos) não tinham capacidade nem interesse na ciência. Não estamos obrigados a venerar cegamente o passado, mesmo aquele passado que foi bom no seu devido tempo. As instituições de ensino superior foram sempre a base de apoio firme de quase toda a ciência que se fez em Portugal. Temos de abrir caminho a uma organização do sistema científico em que essas instituições tenham os meios e sintam os estímulos para melhorarem e tornar-se mais eficientes e mais eficazes. Tudo diferente de incentivar contratações e promoções em ambiente protegido, mecanismos de generalização da mediocridade. Na comparação internacional, Portugal já produz mais artigos (por milhão de habitantes) do que alguns dos nossos parceiros mais ricos, mas essa produção tem mais baixo reconhecimento e menor impacto económico e social. É tempo de criar mecanismos de avaliação que nos apoiem na transição de mais ciência para melhor ciência.

In Observador, 09jul2019

Sem comentários:

Enviar um comentário