Professor ved MIT sprenger grenser for databehandling med tidenes største dataklynge utviklet i den offentlige nettskyen

Ved å bruke Google Compute Engine til å administrere LMFDB-databasen (L-Functions and Modular Forms Database) klarte Andrew V. Sutherland, som er spesialist på beregningsbasert tallteori samt en ledende forsker ved MIT, å slå sin egen rekord for databehandling med høy ytelse – med en dataklynge på hele 580 000 kjerner.

I matematisk filosofi snakkes det ofte om såkalte objekter. Objekter er stort sett alt du kan utføre matematiske beregninger på, for eksempel tall eller funksjoner, eller resultater av matematiske beregninger, for eksempel kurver. LMFDB-databasen (L-Functions and Modular Forms Database) er en detaljert oversikt over objekter og forbindelsene mellom dem. LMFDB er et samarbeidsprosjekt mellom internasjonale forskere som ledes av et internasjonalt team tilknyttet flere universiteter i Europa og Nord-Amerika – blant annet MIT.

Hele perspektivet du har på forskning, endrer seg når du kan få svar på et spørsmål i løpet av timer i stedet for måneder.
Andrew V. Sutherland, Computational number theorist and Principal Research Scientist, MIT

Forskere utveksler data

LMFDB-databasen gir et løft til vitenskapen idet den gjør det langt enklere for forskere å dele data om objekter med forskningsmiljøer for fysikk, IT og matematikk over hele verden. Noen av objektene krever så komplekse beregninger at bare noen få personer i verden vet hvordan de skal utføres. Andre beregninger er så store, dyre og tidkrevende at de helst bare bør kjøres én gang.

Teamet som sto bak LMFDB, trengte en skybasert tjeneste som kunne håndtere det økende behovet for lagringsplass. For å sette ting i perspektiv har det tatt nærmere 1000 år med beregningstid å skape objektene i LMFDB. I tillegg til lagringsbehovet var det utfordrende å sørge for tilstrekkelig skalering. LMFDB er tilgjengelig for alle på lmfdb.org, noe som betyr at prosjektet måtte skaleres for å støtte de utallige søkene som utføres daglig. Og fordi LMFDB er et samarbeidsprosjekt, trengte teamet et system som enkelt kunne administreres av personer i flere ulike land.

Fokus på forskning – ikke infrastruktur

LMFDB-teamet så på flere skyløsninger og valgte til slutt Google Cloud fordi den hadde høy ytelse, kunne skaleres automatisk og var brukervennlig og pålitelig.

Blant forskerne og beslutningstakerne bak LMFDB finner vi Andrew V. Sutherland, som er matematikkprofessor, spesialist på beregningsbasert tallteori og ledende forsker ved MIT.

«Vi er matematikere som ønsker å fokusere på forskningen vår uten å måtte bekymre oss for maskinvarefeil eller skaleringsproblemer knyttet til nettstedet», sier Sutherland.

Sutherland og resten av LMFDB-teamet valgte å bruke Google Compute Engine (GCE) og Google Persistent Disk som vert for nettjenerne. De brukte dessuten speilede MongoDB-databaser til å lagre en halv terabyte med data på nettet samt tre terabyte med data som ikke brukes så ofte. Med denne konfigureringen kan LMFDB skaleres etter behov, og den kan levere beregningsresultater og matematiske objekter raskt når forskerne trenger dem. LMFDB bruker også en rekke ulike Google Cloud-verktøy som gjør at forskere i ulike deler av verden kan administrere databasen på en enklere og mer samarbeidsbasert måte. Disse verktøyene omfatter Google Stackdriver, Google Cloud Console og Google Cloud Load Balancing.

Sutherland nevner spesielt en særdeles sammensatt tabulering han måtte utføre og lagre i LMFDB. Den var så omfattende at den ville kreve datakraft på et nivå som aldri tidligere hadde forekommet i den offentlige nettskyen. For å gjennomføre dette valgte han å bruke GCE og kjøre 580 000 kjerner med avbrytbare virtuelle maskiner. Dette er den største kjente dataklyngen med høy ytelse som noensinne har kjørt i den offentlige nettskyen.

Beregningen resulterte i 70 000 ulike kurver, som hver hadde sin egen LMFDB-oppføring. Bare det å finne én av de kurvene er en ekstremt kompleks oppgave som krever et høyt antall beregningssykluser. «Det er som å lete etter en nål i en 15-dimensjonal høystakk», sier Sutherland.

Før han bestemte seg for å bruke GCE for å utføre beregningen, hadde Sutherland kjørt jobber på sin egen 64-kjerners datamaskin, noe som tok altfor lang tid. Det eneste andre alternativet han hadde, var å benytte seg av dataklyngene til MIT, en løsning som kunne være vanskelig tilgjengelig og begrense muligheten til å bruke egne programkonfigurasjoner. Med GCE kan han bruke så mange kjerner han trenger, installere akkurat det operativsystemet og de bibliotekene og programmene han trenger, og oppdatere miljøet når han vil.

Google Cloud gjør LMFDB mer skalerbar, slik at alle – fra studenter til erfarne forskere – enkelt kan søke og navigere i innholdet via et nettgrensesnitt. For eksempel underviser Sutherland i et kurs om elliptiske kurver, og studentene bruker LMFDB i forbindelse med hjemmearbeid.

Lavere kostnader ved større beregninger

Mange forskere og utdanningsinstitusjoner møter ofte begrensninger knyttet til budsjetter, men med Google Cloud kan de utføre omfattende beregninger til en rimelig penge. Ved å bruke avbrytbare virtuelle GCE-maskiner kan Sutherland redusere kostnadene betydelig samtidig som han utfører ekstremt komplekse beregninger. Disse forekomstene med alle funksjoner koster opptil 80 % mindre enn tradisjonelle løsninger fordi de kan avbrytes av GCE. Avbrudd i databeregninger har liten betydning for ytelsen. I gjennomsnitt blir bare to–tre prosent av forekomstene hans avbrutt for hver time med beregninger, og ved hjelp av et skript blir beregningene gjenopptatt automatisk frem til hele jobben er ferdig. Dermed er det svært lite tid som går tapt. Ved å tillate disse små avbruddene kan Sutherland kjøre svært omfattende beregninger til lave kostnader og nærmest uten forsinkelser.

Vi kartlegger det 21. århundres matematikk
Andrew V. Sutherland, Computational number theorist and Principal Research Scientist, MIT