Image showing EOSC logo with an add-on "be different together"

EOSC i med- og modvind: Observationer og refleksioner fra konferencen Digital Infrastructures for Research 2018

 

Hvordan skal visionen om EOSC – European Open Science Cloud –  omsættes til virkelighed? Er fælles nødvendigvis fantastisk? Hvad er erfaringerne fra de eksisterende internationale forskningsinfrastrukturer? 


Rejserapport Bo Bai | chefkonsulent | AAU IT Services

Min baggrund er at jeg er datalog af uddannelse. Til daglig er jeg den ledende arkitekt for den digitale infrastruktur til forskning ved Aalborg Universitet. Jeg har beskæftiget mig med digital understøttelse af forskningen de sidste 15 år. Jeg deltog på DI4R 2018 konferencen som en repræsentant for det nationale data management forum. Dette er mine subjektive observationer fra konferencen og refleksioner herpå.

DI4R 2018 var organiseret af nogle af de helt store spillere på den europæiske infrastrukturscene: EOSC-hub, GÉANT, OpenAIRE og PRACE. Det gennemgående tema for konferencen var European Open Science Cloud – EOSC – visionen om om en fælles europæisk cloud infrastruktur for forskning. Gennem EOSC skal de digitale forskningsinfrastrukturer i EU landene kunne indgå i en sammenhængende cloud som kan betjene forskningen i hele EU.

Jeg opsøgte sessioner og debatter som fokuserede på omsætningen af EOSC visionen til praksis. Specifikt:

  • Den organisatoriske og tekniske arkitektur som skal drive den videre udviklingen af EOSC
  • Erfaringer fra forskere som er brugere af de eksisterende digitale infrastrukturfælleskaber
  • Erfaringer med at drive de internationale digitale infrastrukturer
  • Hvad der kræves for at supportere forskernes anvendelse af disse infrastrukturer

Den organisatoriske arkitektur for EOSC

Her var budskaberne ikke så klare. Jeg hørte på adskillige præsentationer og panel debatter uden at få et klart billede af hvordan EOSC er tænkt organiseret. Jeg kom derfra med en følelse af, at der er flere forskellige ideer om hvordan EOSC skal organiseres og financierens. Jeg mener ikke at jeg på denne baggrund kan konkludere hvordan EOSC vil ende med at være organiseret.

Forskernes erfaringer med anvendelse af de digitale infrastrukturer

Der var adskillige forskere som direkte rapporterede deres erfaringer med anvendelse af fælles forskningsinfrastrukturer. De fleste af guldkornene kom dog i spørgetiden efter præsentationerne af de enkelte infrastrukturer, hvor forskere i salen delte ud af deres erfaringer.

De infrastrukturer som forskerne fandt mest værdifulde, var de som havde specialiseret sig mod et bestemt fagområde. Disse fagspecifikke infrastrukturer er fulde digitale økosystemer i sig selv. Fokuseringen på et fagområde betyder, at de kan levere relevante, målrettede digitale analyseredskaber med faglig support. Ofte har de også de bedste arkiver, søgefunktioner og databiblioteker for området. De fagspecifikke digitale infrastrukturer fungerer naturligt som ”hub” for udviklingen af datastandarder og softwarebiblioteker indenfor deres fokusområde. Det var ofte infrastrukturer udviklet under ESFRI projekter, der blev nævnt som gode eksemler.

Der blev til gengæld stillet spørgsmål til hvor relevante de mere generiske infrastrukturprojekter under EOSC er for forskerne. Hvorfor skulle en forsker deponere eller søge efter data i et arkiv, der ikke er rettet mod hans fagområde og dets specielle dataformater?

Kritikken fra salen var meget tydelig under og efter præsentationen af status og leverancer fra EUDAT-projektet. Det blev fremført, at EOSC burde tage de bedste komponenter fra de eksisterende digitale infrastrukturer i stedet for at udvikle nye.

Erfaringer fra udbyderne af digitale infrastrukturer for forskning

Alle pegede på den store vækst i mængden af forskningsdata som en udfordring. Udvidelse af kapaciteten til at opbevare data er ikke vanskelig, det handler kun om penge. Problemet er, at datasæt bliver så store at det er meningsløst at sende kopier af dem rundt. Data bliver så tunge at de ikke kan flyttes.

Den oplagte løsning er at flytte analysen til dataene, i stedet for at flytte på dataene. Dette kan i praksis gøres ved at pakke analyseprogrammer i digitale ”containere”, som sendes hen hvor dataene gemmes. Udfordringerne er at få lavet fælles standarder for udformning af disse containere, og hvordan de gives adgang til data. EOSC er en oplagt driver for udvikling af fælles standarder for containere, samt etablering af de tilhørende infrastrukturer.

En anden udfordring er, at de fleste digitale infrastrukturer bliver grundlagt gennem projekter. Infrastrukturerne har stor risiko for at sygne hen når projektperioden er ovre. Succesful videreførelse kræver langsigtet planlægning med fokus på at forblive attraktiv, når projektfinansieringen stopper.

Disse parametre blev beskrevet som de væsentlige for en succesfuld videreførelse:

  • Hav en klar faglig profil – bedre snæver og stærk end bred og utydelig
  • Hav services af høj kvalitet som udbydes bredt allerede under projektperioden
  • Vær åben for samarbejder
  • Lyt til brugerne
  • Hold liv i udviklingen af tjenesten

Manglen på anerkendelse

Den største udfordring for forskning på de digitale infrastrukturer er måske at fastholde udviklerne af den nye videnskabelige software, der flytter forskningsfronten.

Udviklingen af videnskabelig software af høj kvalitet kræver både dyb indsigt i fagområdet og gode programmeringsfærdigheder, og ofte er det forskeren selv eller en løst ansat assistent som udvikler software til et forskningsprojekt. Forskerne efterlyser konstant hjælp til softwareudvikling, og problemet med videreførelse efter endt projekt er stort. Men selv når de finder en kandidat med de rette færdigheder, er det typisk umuligt at holde på udviklere af videnskabelig software.

De primære forhindringer er:

  • Udviklere af videnskabelig software kan ikke få akademisk anerkendelse af deres bidrag til forskningen
  • Der er ingen karrierevej for udviklere af videnskabelig software på universiteterne
  • Det mangler faste stillinger til udviklingen af videnskabelig software

Min konklusion

Efter 3 dage på konferencen var jeg overbevist om at EOSC-visionen kan og vil blive realiseret. Men det er også tydeligt at det er meningsløst at tale om én fælles cloud for alle fagområder.

Udviklingen af digitale infrastrukturer skal være drevet af forskernes specifikke behov i de enkelte fagområder – som det gøres gennem ESFRI. EOSC kan blive den fælles ramme som samler serviceudbuddet fra diverse specialiserede digitale infrastrukturer og ERICs. Denne retning bekræftes også af infrastrukturer som PRACE og ELIXIR som medarrangører på konferencen.

Danmarks nationale bidrag til EOSC bør funderes i fagspecifikke infrastrukturer på områder, hvor danske forskningsmiljøer har kompetencen til og interessen i at drive udviklingen internationalt.

Share this:
Bo Bai

Unix Systems and Network Administrator, chief architect on the digital research infrastructure at Aalborg University, and part of the team behind CLAAUDIA (joint venture between IT Services and the university library) that covers the range of project management, enterprise architecture, research infrastructure, data management and data science.

2 comments, add yours.

Anders Conrad

Jeg er interesseret hvad du præcis mener med følgende passus:

“Kritikken fra salen var meget tydelig under og efter præsentationen af status og leverancer fra EUDAT-projektet. Det blev fremført, at EOSC burde tage de bedste komponenter fra de eksisterende digitale infrastrukturer i stedet for at udvikle nye.”

Kan du uddybe hvad kritikken gik på: var det kritik af EUDAT som sådan eller var det kritik af EUDAT’s fremtrædende position i EOSC som en generel infrastruktur?

Bo Bai

Bo Bai

Author

Hej Anders,

Det var lidt af det første men mest det sidste. Både EUDAT som den generele infratruktur, men også om udvikling af generel infratruktur havde mening når der findes Dropbox, GitHub, osv. som allerede bruges af forskere. Her skal man nok huske at de tilstedeværende forskere typisk allerede var brugere af større forskningsinfrastrukturer.

Kritikken kom fra 2 fronter. Men den var næsten enslydende og gik mest på EUDAT pilotens data services B2SHARE, B2FIND, B2DROP:

1) Forskere som var til stede I salen kunne ikke se at andre end de der selv var med i piloterne nogen sinde ville bruge B2xxx platformen. Forskere ville vedblive at bruge de platforme som forksningsfælleskaber allerede bruger til samarbejde i form af publikationssamlinger, datasamlinger og fælles software for området. En speciel kritik gik på at B2SAFE kunne blive et sted man var tvunget til OGSÅ at aflevere data, men deling ville altid være gennem fagfælleskabernes databaser.

2) Tilsvarende kommentarer kom fra ESFRI’er som var til stede. De menete at deres løsninger, som var rettede mod bestemte dicipliner, var det rigtige sted for resourcer som datasamlinger og udvikling af data pipelines. De mente også at der allerede findes kandidater til de centrale infratruktur services (authentificering, virtuelle organisationer, data kataloger,…) som man kunne plukke fra ESFRI’erne.

Da der blev spurgt om hvor meget piloten havde kostet per forsker de bejente blev det lidt ophedet. En projektleder på EUDAT (kan ikke huske navnet) forsvarede med at der kun var tale om en pilot for at vise principet i EOSC, og det havde man gjort. Den rigtige EOSC kunne blive helt andre infrastrukturer fremadrettet. Salen virkede ikke overbevist…

Der var til gengæld stor interresse for hvordan man fik registreret sine services i EOSC-hub potalen.

Jeg tror på at EOSC nok skal blive en success, men det bliver som en hat ovenpå et service landskab leveret af mange ESFRI’er og andre forskningsresourcer. Der kan måske også komme en mindre komponent af kommecielle udbydere. Telekom Cloud har f.eks. adopteret platformene fra forsknings infratrukturerne prøver nu at lave produkter som kan betjene forskningsprojekter eller institutioner. Deres presentation viste dog at det genenrelt var en udfordring at få deres økonomi til at hænge sammen. Det skyldes at en forsker har tendens til at bruge hele kapaciteten hele tiden (1:1 på infrastruktur). Hvor deres normale kunder typisk belaster nogle procent og kan deles om en infratruktur (måske 5:1 på en infratruktur). Derfor arbejder de med nye afregnings modeller for at få det til at give en positiv forretning hos både leverandør og bruger.

Leave a comment