Foram agora apresentados os resultados preliminares da avaliação das
unidades de investigação acreditadas pela FCT. Conseguimos um resultado fora de
série: ao longo das sete avaliações promovidas pela FCT, nunca tínhamos
conseguido ter uma percentagem tão alta (64%) de unidades com a menção de Muito
Bom ou mais; nunca tínhamos conseguido uma percentagem tão baixa (12%) de
unidades com a menção de Razoável ou Insuficiente. Problema: os resultados foram
tão extraordinariamente positivos que se torna inevitável constatar que algo não
bate certo.
Note-se que as unidades de maior dimensão tendem a ser mais bem
classificadas pelo que o panorama real é ainda melhor do que os valores globais
mostram. Nesta avaliação, 78% dos doutorados estão em unidades com a menção de
Muito Bom ou Excelente e apenas 5% em unidades com a menção de Razoável ou
Insuficiente.
Em termos comparativos com as avaliações anteriores, a melhoria é ainda mais
surpreendente porque a pressão para formar novas unidades, mesmo em situação
marginal, aumentou muito nos últimos anos, desde que a Agência de Avaliação
(A3ES) passou a usar estes resultados para a acreditação dos cursos. Em
situações limite, a existência de algumas universidades pode depender do
resultado desta avaliação. Consequentemente, podemos pensar que a candidatura
de muitas das unidades com menção mais baixa resulta de tentativas de pequenos
grupos para salvar o curso em que lecionam ou a instituição que os contrata. Ou
seja, com esta pressão ao fundo da tabela, significa que todas as unidades
razoavelmente estabelecidas têm menção de Bom ou melhor! Uma situação
invejável. Como lastimarão os nossos vizinhos espanhóis por não se poderem
apresentar a esta avaliação. Como serão infelizes os nossos amigos espanhóis
quando souberem destes resultados depois de terem lido há pouco o título de
caixa alta do El
País em 27 de fevereiro passado:
El 50% del professorado universitário
fijo investiga poco o nada!
Note-se que, de entre todos os docentes doutorados a 100% de dedicação a
universidades públicas, 68% estavam em unidades com classificação de Bom (ou
superior) logo na 1ª fase da avaliação de 2013. Em unidades com a menção de Muito
Bom ou melhor, estavam 52% dos docentes. Ou seja, o Muito Bom seria, em
Portugal, o limiar de qualidade abaixo da qual, de acordo com o El País, os professores investigam “poco o nada”.
Registe-se que entre 2013 e 2018, segundo os inquéritos ao potencial
científico, o número de investigadores no setor Ensino Superior somado ao das
IPSFL (instituições privadas sem fins lucrativos) se manteve constante em cerca
de 29 150 - dados da DGEEC:.em
2013, investigadores no ensino superior 2 849 e em IPSFL 52318; em 2018, no
ensino superior 28 628 e em IPSFL 506. O número de doutorados que se apresenta
inserido em unidades de investigação sobe, no mesmo período, de 15444 para
19019, o que terá de ser interpretado como uma maior participação em unidades
de investigação de docentes de universidades e institutos politécnicos,
públicos e privados, pelas razões já sugeridas acima. Acresce que a condicionalidade
de atividade mínima dos membros integrados foi suprimida nesta avaliação, o que
pode assim ter atraído mais investigadores inativos. E, surpreendentemente, os
painéis não detetaram nada de errado.
Como explicar estes resultados tão improváveis? Como de seguida se explica,
a raiz do problema está na metodologia de avaliação, que se afastou da prática
anterior e optou por uma abordagem inevitavelmente superficial.
1. Um problema metodológico: a avaliação “concurso de beleza”
A avaliação das unidades de investigação promovida pela FCT retomou o
modelo de painéis (supostamente) soberanos, neste caso com 42 painéis de 5 a 6 membros
que recebem os relatórios de atividades das unidades e os respetivos planos de
futuro. Depois de uma análise documental, os avaliadores fazem uma visita
rápida de cerca de 3 horas a cada unidade para verificarem as condições locais
de trabalho e falarem com os investigadores.
Este é o modelo típico das avaliações para a melhoria, em que a função do
painel externo não vai além do reforço das perceções internas que, no seu
entender, poderão contribuir para a melhoria de desempenho futuro. Não se
pretende, em geral, uma avaliação quantitativa ou categorial que dificilmente
se pode pedir a um painel que, para tal, teria de ler e analisar detalhadamente
relatórios e seguir as referências das publicações produzidas. Neste caso, cada
painel teve de avaliar até 23 unidades e, para ser rigoroso, teria de avaliar
individualmente a produção de cada investigador. Se alguns painéis teriam de
analisar a produção de uns 200 doutorados, outros teriam o encargo de apreciar
a produção de mais de mil investigadores doutorados, 1762 no caso extremo. Uma
tarefa claramente impossível.
Por outro lado, um painel de 5 ou 6 membros não tem competência para
avaliar a produção científica de todos os membros ou de todas as áreas de
investigação de uma unidade. É impossível reunir meia dúzia de químicos que
façam a leitura crítica de todos os trabalhos de uma qualquer unidade de
química. Se um painel não pode ter competência para apreciar todo o trabalho de
todas as linhas de atividade das unidades na sua área e se não se pode esperar
que faça uma análise exaustiva do trabalho produzido por todos os
investigadores que nela trabalham, qual será então o propósito destes painéis?
E, com que expectativa é que os seus membros aceitam esta função?
Certamente, cientistas experientes são capazes de apreciar o dinamismo e a
relevância dos temas de trabalho de investigadores da sua disciplina, ainda que
não possam analisar cada trabalho individualmente. Podem formar uma opinião
sobre um relatório e podem complementar essa opinião com as conversas mantidas
na breve visita. Para uma unidade pequena, digamos até 30 investigadores
doutorados, é possível que todas as linhas de atividade sejam escrutinadas.
Para uma unidade maior isso é impossível. Do relatório, o avaliador irá recolher
alguns pontos que pela proximidade aos seus interesses (ou desinteresses) se
salientem e terá de deixar fluir a visita para pessoas e temas decididos pela
unidade. O resultado depende mais da boa estratégia do coordenador da unidade
na preparação do relatório e, crucialmente, da organização da visita. O sucesso
poderá depender da escolha das pessoas e dos temas de investigação selecionados
para a apresentação da unidade e, com cem, duzentos ou mais doutorados, haverá
muito por onde escolher. A menção final da avaliação resulta certamente do que
o painel viu na unidade, mesmo admitindo que faz essa observação com toda a
diligência possível e que, em geral, haverá alguns cientistas muito experientes
nesses painéis.
Mas o que o painel vê estará longe de ser tudo o que há na unidade. A
menção de qualidade final não poderá traduzir de forma completa a qualidade
científica de toda a unidade, mas apenas daquilo que os membros do painel puderam
ver e lhes foi mostrado. Para unidades de grande dimensão, o que podem ver é
certamente uma pequena parte do que foi feito e os painéis não poderão ir além
de uma impressão. Poderá ser útil para guiar a melhoria da unidade, mas falhará
na intenção de influenciar o comportamento de toda a unidade. E toda a unidade
vai ser financiada em função desta impressão. É esta realidade que me levou a
escrever no Observador em 17 de outubro de 2017 uma apreciação do regulamento
deste processo de avaliação que intitulei “Ciência:
avaliação ou concurso de beleza”. O que a FCT tem promovido, não passa de
um concurso de beleza! Mesmo admitindo que os membros dos painéis são
cientistas honestos, competentes e experientes, o resultado não pode ir além de
uma impressão superficial do que de facto é produzido na unidade de
investigação. Não seria possível fazer melhor?
Para entidades da dimensão de muitas das nossas unidades de investigação, o
único recurso disponível é o uso de métricas, apesar de todas as suas
limitações. Assim se faz em todo o mundo para avaliar universidades e países.
Sem mais informação e na impossibilidade de lerem (e entenderem) todas as
publicações, os avaliadores terão começado por contar o número de artigos, mas
esta é certamente a pior de todas as métricas. Apesar da proibição estrita do
recurso a qualquer tipo de métricas na avaliação de 2018, a verdade é que elas
foram discricionariamente solicitadas pelos painéis, fornecidas pelos
coordenadores e referidas como elemento de avaliação nos relatórios. Esta foi a
pior das soluções imagináveis. Usaram-se métricas, mas sendo recolhidas e
construídas por cada uma das unidades não são comparáveis.
2. A avaliação das unidades de 2013-2014
A avaliação das unidades de investigação promovida em 2013-14 foi criticada
na altura e o relatório da equipa de coordenação desta mais recente avaliação
ainda sentiu a necessidade de a comentar negativamente, nem sempre com
argumentos verdadeiros. Terá entendido que a reprodução do que tinha dito há
anos seria agora aceite sem mais escrutínio. Vale a pena revisitar estes
argumentos.
Na avaliação de 2013, foi opção da FCT seguir uma metodologia diferente da
usual. Mais distanciada dos interesses locais, não fazendo a escolha direta dos
avaliadores. Contratou, a ESF, European
Science Foundation, uma entidade europeia com experiência de tomar decisões
com implicações em mais de dezassete mil milhões de euros por ano. Esta
entidade adotou uma metodologia que permite ver de mais perto o trabalho de
cada linha de investigação das unidades, introduzindo um sistema de avaliação
remota do tipo que é usado para artigos em publicação ou para projetos de
investigação. Pode assim ter peritos mais próximos do trabalho reportado. Foram
usados 659
peritos, bastante mais que os 223 membros dos 42 painéis nomeados para
2018. O objetivo foi ter três avaliações independentes de cada unidade, antes
da discussão em painel. A metodologia adotada aproximou-se da que a ESF usa na
avaliação de projetos, alguns mais relevantes financeiramente do que o
financiamento a atribuir às unidades portuguesas. Os sete painéis constituídos
pela ESF tinham uma função de harmonização das avaliações de cada perito
individual e de cada painel. As visitas dos painéis às unidades mais bem
classificadas tinham uma função de afinação do resultado a que já teriam
chegado depois das avaliações individuais dos peritos e da harmonização em
painel. O resultado final terá sido muito menos influenciado pela visita.
A primeira crítica à metodologia de 2013 é dirigida ao número de painéis,
que nem sempre teriam especialistas reconhecidos na área de trabalho da
unidade. É verdade, mas omite que todos os relatórios tiveram três avaliações
independentes por peritos especializados, o que é impensável no modelo de 42
painéis de visita. No modelo da ESF, a visita é muito secundária, enquanto no
modelo tradicional da FCT a visita tende a ser determinante do resultado.
A acusação mais ácida foi a de que a FCT teria querido, em 2013, matar
metade do sistema científico ao apontar para cerca de 50% das unidades avaliadas
em categorias de nenhum ou de baixo financiamento. Omite-se que não existem nem
nunca existiram critérios absolutos para a atribuição de uma menção de
qualidade a entidades de investigação (para além da rejeição daquelas que
eventualmente sejam consideradas não aderentes à metodologia e à prática
científica). Em qualquer processo sério de avaliação, poderá pedir-se uma
seriação ao painel de peritos, mas a decisão dos limiares de corte é sempre
“política”, depende da orientação que a agência de financiamento pretenda dar
ou da disponibilidade financeira.
No caso presente, e como se vê no quadro apresentado acima, a distribuição
das menções está perfeitamente alinhada com as avaliações anteriormente feitas
pela FCT, sempre por decisão da FCT e não dos painéis de peritos. A diferença
estaria então no baixo financiamento atribuído às unidades com a menção de Bom. Foi também criticado o baixo financiamento
das que tiveram a menção de Bom, apesar de as 47 unidades melhor classificadas
dentro da categoria de Bom terem logo beneficiado de um Fundo de Restruturação
Estratégico de 12,3M€ para 2015-18. Mais tarde, outras 96 unidades,
independentemente da sua avaliação, vieram a beneficiar de um Fundo de Recuperação
com o total de 6,3M€ para 2016-17. Estranhamente, só este segundo reforço é
agora lembrado pelos coordenadores da avaliação de 2018.
A avaliação de 2013 usou uma metodologia rigorosa típica da avaliação de
projetos, mesmo de projetos de grande vulto, e procurou ser seletiva numa época
em que o volume de candidaturas crescia, não só pelo crescimento da comunidade,
mas também porque a sobrevivência de algumas instituições de ensino superior e
dos seus cursos de mestrado e doutoramento já dependia da avaliação. Poderá
argumentar-se que a avaliação de entidades de investigação deveria seguir
outros procedimentos e podem encontrar-se exemplos de boas práticas em muitos
países europeus e noutras zonas do mundo. Para que a avaliação tenha um efeito
percetível nas políticas de recrutamento e de promoção das instituições, é
necessário que seja compreensível, ainda que não pública, a relação entre o
desempenho individual ou de pequenos grupos e a menção global associada à
universidade ou à (grande) entidade de investigação.
Os exemplos mais bem-sucedidos e mais estudados são os da Inglaterra, da
Itália e da Austrália em que são lidos e avaliados três ou quatro trabalhos
(artigos convencionais ou de outro tipo) de cada investigador submetido a
avaliação. Assim se ultrapassa nesses países a pressão para publicar muito e se
estimula que se publique melhor. Outros sistemas têm sido desenvolvidos, de que
o dos países nórdicos merece consideração. Algum tipo de métrica é quase sempre
usado, mas sempre moderado de alguma forma pelo parecer de pares. Isto é, as
métricas são geralmente utilizadas para iniciar uma discussão sobre qualidade e
mérito e não como forma de a encerrar. Não seria difícil encontrar um caminho
de avaliação das unidades que servisse melhor as próprias unidades e que
estimulasse as universidades e os institutos politécnicos a serem mais
cuidadosos na seleção dos docentes cientificamente mais promissores. Não parece
ser este o objetivo da FCT e dos decisores políticos que a tutelam.
3. Para que serve uma avaliação que visa agradar a gregos e a troianos?
É uma pergunta fundamental: para que servirá todo este exercício de
avaliação periódica, sempre muito ao sabor dos humores políticos do momento? A
consequência primeira é a distribuição de 400 milhões de euros em 4 anos,
acrescidos do financiamento de investigadores e estudantes de doutoramento. Um
pouco mais de 50% do prémio vai para as unidades com a menção de Excelente que são
31% do número de unidades avaliadas (com 43% dos investigadores). O prémio para
a excelência é um diferencial de sete pontos percentuais, uma vantagem
demasiado escassa para evitar os cortes significativos de que as excelentes
vieram a público queixar-se, apesar da sua nota máxima. Sim, muitas unidades
obtiveram agora a nota máxima e vão sofrer cortes no financiamento!
Ao contrário do que estranhamente acontecera em 2003 e em 2007, esta
avaliação seguiu o bom exemplo de 2013 e convidou também os laboratórios associados
a se submeterem a avaliação. Os resultados não foram sempre os mais esperados:
a menção de excelente escapou a vários destes. Garante-se o silêncio de todos
prometendo para breve um concurso para a renovação do estatuto e a criação de mais
uns tantos. Algumas unidades que sentem ter já dado repetidamente prova do seu
bom desempenho, mesmo superior a alguns laboratórios associados, ensaiam
movimentos sempre estancados pela expectativa de que o seu dia chegará e de que
a alternativa poderá ser cruel. Uma diferenciação de 7 pontos percentuais entre
os excelentes e os muito bons não justificará todo o esforço do exercício, mas
logo aparece a promessa sempre repetida de que nada terão a recear da dureza do
frio exterior.
É difícil agradar a Gregos e Troianos. Os Gregos foram selecionados
cuidadosamente e depois bem alimentados ao longo de muitos anos. Cresceram e,
em geral, frutificaram na proximidade e por obra e graça de Atena. Construíram
uma rede de protegidos, não sendo o mundo imaginável sem essa rede de
dependência. Mantiveram o pacto de proteção mútua. Não há registo de que algum
Grego tenha algum dia caído no infortúnio de uma má avaliação que seria certamente
“injusta”. Em nenhum momento estes deixaram de apoiar Atena, garantindo-lhe o
culto diário e participando na procissão triunfal até ao areópago na maior
festa anual de celebração da deusa e de agradecimento pela proteção dispensada
ao longo do ano. A festa dura normalmente 3 dias e é marcada por oráculo divino
logo após o solstício de verão. Esta aliança mantém-se ao longo dos anos por
ter criado uma dependência mútua com vantagens evidentes. Regularmente, os
sacerdotes chefes são chamados ao templo para um convívio que os faça sentir
parte do comando da liga. E o império reforça-se moral e materialmente. De vez
em quando aparece um troiano insatisfeito que não aceita a sua posição subalterna,
que também se acha com direito a navegar no mare
nostrum. Sente que tem o papel de auxiliar no exército romano, cabendo-lhe
demonstrar arduamente no dia a dia a sua força e mostrar resultados, sem nunca
ser admitido à visão beatífica de Atena. Nunca estes troianos se atreveram a
estragar a festa de Atena, mendigando a promessa de que alguns poderão vir a ser
aceites na liga dos eleitos. Assim demonstrem a fidelidade sempre exigida aos verdadeiros
gregos. Por estes dias, há sinais de que mais alguns troianos se sentem com
algum direito aos favores de Atena.
4.
Que
futuro para o governo da Ciência?
Portugal merecia um sistema de governo da ciência mais moderno e eficaz.
Passámos 4 anos a falar muito de “emprego científico” e pouco dos objetivos
sociais e económicos desta empresa científica. O emprego científico deveria ser
apenas um meio para atingir objetivos que beneficiassem todos os portugueses. É
do esforço de todos os portugueses que o sistema científico se alimenta e eles
têm o direito a um retorno apropriado. Para isso, precisamos de um sistema
menos partidarizado e mais bem gerido na sã competição interna. O sistema
científico merece uma organização robusta de autorregulação sem a intromissão
diária nem o protagonismo sempre presente de um poder político, mesmo quando
este tente fazer-se ver com o paternalismo associado ao despotismo iluminado de
outra época.
Autorregulação significa estabilidade na prossecução dos objetivos
definidos pelo poder político legítimo, mas sem qualquer interferência nos
processos de avaliação. Tudo diferente do que temos. Como no Ancien Régime, uns tantos têm direitos
perpétuos e hereditários e não imaginam que a história os possa algum dia deixar
para trás. Muitos não precisariam dessa proteção para vencerem em campo plano,
mas parece recearem que a turbamulta irrompa. Para o sistema científico
português, é tempo de assumir a idade adulta e de mostrar que já pode viver num
mundo competitivo em que todos os dias lhe vai ser exigida a prova do seu
mérito.
O sistema científico português insiste em manter uma organização anacrónica
e única no mundo. Instituições frágeis e inconsistentes sobrevivem do tempo em
que as universidades (e os institutos politécnicos) não tinham capacidade nem
interesse na ciência. Não estamos obrigados a venerar cegamente o passado,
mesmo aquele passado que foi bom no seu devido tempo. As instituições de ensino
superior foram sempre a base de apoio firme de quase toda a ciência que se fez
em Portugal. Temos de abrir caminho a uma organização do sistema científico em que
essas instituições tenham os meios e sintam os estímulos para melhorarem e
tornar-se mais eficientes e mais eficazes. Tudo diferente de incentivar
contratações e promoções em ambiente protegido, mecanismos de generalização da
mediocridade. Na comparação internacional, Portugal já produz mais artigos (por
milhão de habitantes) do que alguns dos nossos parceiros mais ricos, mas essa
produção tem mais baixo reconhecimento e menor impacto económico e social. É
tempo de criar mecanismos de avaliação que nos apoiem na transição de mais
ciência para melhor ciência.
In Observador, 09jul2019
Sem comentários:
Enviar um comentário