En sekvens af automatiserede trin, der henter (ingest), renser, transformerer og gemmer data, så de kan bruges i analyse eller ML. (Ingest = hente data fra en kilde).
2
New cards
2. Hvad betyder "orkestrere" i forbindelse med data
At koordinere rækkefølgen og udførelsen af datajobs automatisk (fx triggere, afhængigheder, scheduling).
3
New cards
3. Hvad er Azure Data Factory (ADF) brugt til
Orkestrering og flytning af data mellem kilder og mål; scheduling af pipelines og triggere.
4
New cards
4. Hvornår vælger man Databricks frem for ADF til transformationer
When transformations are compute-intensive or require distributed processing (store datasæt) — Databricks (Spark) er til tung databehandling; ADF er til orkestrering.
5
New cards
5. Hvad er Apache Spark
Et open-source rammeværk for distribueret data-behandling (hurtige batch- og streaming-job).
6
New cards
6. Hvad er Azure Data Lake Storage (ADLS)
Et stort objektlager optimeret til big-data (rå og processerede filer), ofte organiseret i raw/processed zoner.
7
New cards
7. Hvad er forskellen på Blob Storage og ADLS
Blob = generelt objektlager; ADLS Gen2 = Blob + filsystem-lignende features (optimiseret til big-data og analytics).
8
New cards
8. Hvad betyder "raw" vs. "processed" zone
"Raw": originale, uændrede filer; "Processed": rensede/transformerede data klar til analyse eller træning.
9
New cards
9. Hvad er høj-throughput streaming
Håndtering af mange beskeder/events pr. sekund (fx IoT eller clickstream). (Throughput = mængde data pr. tid).
10
New cards
10. Hvad gør Azure Event Hubs
Indsamler og bufferer store mængder real-time events for videre behandling i streaming-pipelines.
11
New cards
11. Hvad er en feature i ML
En inputvariabel (beregnet eller rå) som modellen bruger til at forudsige et output.
12
New cards
12. Hvad er en feature store
Et centralt lager for genbrugte features, så træning og inferens bruger samme beregninger/data.
13
New cards
13. Hvornår bruger man Azure SQL Database i en ML-pipeline
Til strukturerede masterdata, joins og hurtige queries, fx reference-tabeller og metadata.
14
New cards
14. Hvad er Azure Databricks' notebooks gode til
Interaktiv udvikling, dokumentation og samarbejde ved datarens, feature engineering og eksperimenter.
15
New cards
15. Hvad er Azure Machine Learning Workspace
Et centraliseret workspace til experiment-tracking, model-registrering, AutoML og deployment-kontrol.
16
New cards
16. Hvad gør Azure ML SDK
Python-bibliotek til at orkestrere træningsjobs, logge metrics, registrere modeller og deploye fra kode.
17
New cards
17. Hvad er forskellen mellem realtime endpoint og batch endpoint
Realtime: svar per forespørgsel med lav latenstid; Batch: behandler store mængder data i job (ikke lav latenstid).
18
New cards
18. Hvornår vælger man AKS til deployment
Når man har behov for skalerbarhed, lave svartider og kompleks container-orkestrering.
19
New cards
19. Hvornår er Azure App Service et godt valg
Til hurtig prototyping eller moderate belastninger, hvor man vil undgå kompleksitet ved Kubernetes.
20
New cards
20. Hvad er Azure Functions bedst til
Små, event-drevne eller sporadiske opgaver (serverless); vær opmærksom på cold starts og begrænsede ressourcer.
21
New cards
21. Hvad er ACR (Azure Container Registry)
Privat Docker-image-lager til at pushe/pulle container-images brukt ved deploy.
22
New cards
22. Hvad er MLOps
Praktikker og værktøjer til at automatisere build, test, deploy og overvågning af ML-modeller (ML-livscykel).
23
New cards
23. Hvorfor er CI/CD vigtigt for ML
Sikrer reproducérbarhed, automatiserede tests, hurtige rollback og konsistent deployment af modeller og kode.
24
New cards
24. Hvad er eksperiment-tracking
Logning af hyperparametre, metrics, kode- og data-version, så eksperimenter kan reproduceres og sammenlignes.
25
New cards
25. Hvad er model registry
Et lager hvor versioner af trænte modeller registreres med metadata for deployment og governance.
26
New cards
26. Hvilke metrikker bør man overvåge i drift
Latency, throughput, error-rate, model-performance (accuracy/precision/recall) og input-distribution (til drift-detektion).
27
New cards
27. Hvad er model-drift
Når modelens præstation forringes over tid pga. ændringer i datafordelingen eller miljøet.
28
New cards
28. Hvad kan trigge retraining af en model
Detektion af drift, fald i performance, ændringer i forretningslogik eller nye data.
29
New cards
29. Hvad er Azure Monitor / Application Insights brugt til
Indsamle metrics, logs og traces for applikationer og endpoints; basis for alarms og debugging.
30
New cards
30. Hvad er Key Vault
Tjeneste til sikker opbevaring af secrets (nøgler, credentials og certifikater).
31
New cards
31. Hvad betyder RBAC
Role-Based Access Control — adgangsstyring baseret på roller for at begrænse rettigheder.
32
New cards
32. Hvilke sikkerhedshensyn er vigtige i ML-pipelines
Kryptering (at-rest/in-transit), adgangskontrol, mindskning af data, anonymisering og audit-logs.
33
New cards
33. Hvad er cost trade-offs mellem realtime og batch
Realtime kræver ofte mere ressourcer og dermed højere omkostninger; batch kan være billigere men med højere latens.
34
New cards
34. Hvad er "partitionering" i storage
Opdeling af data i logiske segmenter (fx efter dato) for hurtigere læsning og billigere opslag.
35
New cards
35. Hvad betyder reproducérbarhed i ML
Evnen til at gentage et eksperiment og få samme resultater ved at fastholde data, kode, miljø og seeds.
36
New cards
36. Hvad er "schema drift"
Ændringer i dataens struktur (feltnavne/typer) som kan bryde pipelines eller modeller.
37
New cards
37. Hvad er Delta Lake (kort)
Et lag over filer (ofte på ADLS) som tilføjer transaktionalitet, versioning og ACID-egenskaber til big-data (bruges ofte med Databricks).