AI ML Mod 1

0.0(0)

Studied by 0 people

Knowt Play

Learn

Practice Test

Spaced Repetition

Match

Flashcards

Card Sorting

1/40

There's no tags or description

Looks like no tags are added yet.

Study Analytics

Name	Mastery	Learn	Test	Matching	Spaced

No study sessions yet.

41 Terms

New cards

1. Hvad er en data pipeline

En sekvens af automatiserede trin, der henter (ingest), renser, transformerer og gemmer data, så de kan bruges i analyse eller ML. (Ingest = hente data fra en kilde).

New cards

2. Hvad betyder "orkestrere" i forbindelse med data

At koordinere rækkefølgen og udførelsen af datajobs automatisk (fx triggere, afhængigheder, scheduling).

New cards

3. Hvad er Azure Data Factory (ADF) brugt til

Orkestrering og flytning af data mellem kilder og mål; scheduling af pipelines og triggere.

New cards

4. Hvornår vælger man Databricks frem for ADF til transformationer

When transformations are compute-intensive or require distributed processing (store datasæt) — Databricks (Spark) er til tung databehandling; ADF er til orkestrering.

New cards

5. Hvad er Apache Spark

Et open-source rammeværk for distribueret data-behandling (hurtige batch- og streaming-job).

New cards

6. Hvad er Azure Data Lake Storage (ADLS)

Et stort objektlager optimeret til big-data (rå og processerede filer), ofte organiseret i raw/processed zoner.

New cards

7. Hvad er forskellen på Blob Storage og ADLS

Blob = generelt objektlager; ADLS Gen2 = Blob + filsystem-lignende features (optimiseret til big-data og analytics).

New cards

8. Hvad betyder "raw" vs. "processed" zone

"Raw": originale, uændrede filer; "Processed": rensede/transformerede data klar til analyse eller træning.

New cards

9. Hvad er høj-throughput streaming

Håndtering af mange beskeder/events pr. sekund (fx IoT eller clickstream). (Throughput = mængde data pr. tid).

New cards

10. Hvad gør Azure Event Hubs

Indsamler og bufferer store mængder real-time events for videre behandling i streaming-pipelines.

New cards

11. Hvad er en feature i ML

En inputvariabel (beregnet eller rå) som modellen bruger til at forudsige et output.

New cards

12. Hvad er en feature store

Et centralt lager for genbrugte features, så træning og inferens bruger samme beregninger/data.

New cards

13. Hvornår bruger man Azure SQL Database i en ML-pipeline

Til strukturerede masterdata, joins og hurtige queries, fx reference-tabeller og metadata.

New cards

14. Hvad er Azure Databricks' notebooks gode til

Interaktiv udvikling, dokumentation og samarbejde ved datarens, feature engineering og eksperimenter.

New cards

15. Hvad er Azure Machine Learning Workspace

Et centraliseret workspace til experiment-tracking, model-registrering, AutoML og deployment-kontrol.

New cards

16. Hvad gør Azure ML SDK

Python-bibliotek til at orkestrere træningsjobs, logge metrics, registrere modeller og deploye fra kode.

New cards

17. Hvad er forskellen mellem realtime endpoint og batch endpoint

Realtime: svar per forespørgsel med lav latenstid; Batch: behandler store mængder data i job (ikke lav latenstid).

New cards

18. Hvornår vælger man AKS til deployment

Når man har behov for skalerbarhed, lave svartider og kompleks container-orkestrering.

New cards

19. Hvornår er Azure App Service et godt valg

Til hurtig prototyping eller moderate belastninger, hvor man vil undgå kompleksitet ved Kubernetes.

New cards

20. Hvad er Azure Functions bedst til

Små, event-drevne eller sporadiske opgaver (serverless); vær opmærksom på cold starts og begrænsede ressourcer.

New cards

21. Hvad er ACR (Azure Container Registry)

Privat Docker-image-lager til at pushe/pulle container-images brukt ved deploy.

New cards

22. Hvad er MLOps

Praktikker og værktøjer til at automatisere build, test, deploy og overvågning af ML-modeller (ML-livscykel).

New cards

23. Hvorfor er CI/CD vigtigt for ML

Sikrer reproducérbarhed, automatiserede tests, hurtige rollback og konsistent deployment af modeller og kode.

New cards

24. Hvad er eksperiment-tracking

Logning af hyperparametre, metrics, kode- og data-version, så eksperimenter kan reproduceres og sammenlignes.

New cards

25. Hvad er model registry

Et lager hvor versioner af trænte modeller registreres med metadata for deployment og governance.

New cards

26. Hvilke metrikker bør man overvåge i drift

Latency, throughput, error-rate, model-performance (accuracy/precision/recall) og input-distribution (til drift-detektion).

New cards

27. Hvad er model-drift

Når modelens præstation forringes over tid pga. ændringer i datafordelingen eller miljøet.

New cards

28. Hvad kan trigge retraining af en model

Detektion af drift, fald i performance, ændringer i forretningslogik eller nye data.

New cards

29. Hvad er Azure Monitor / Application Insights brugt til

Indsamle metrics, logs og traces for applikationer og endpoints; basis for alarms og debugging.

New cards

30. Hvad er Key Vault

Tjeneste til sikker opbevaring af secrets (nøgler, credentials og certifikater).

New cards

31. Hvad betyder RBAC

Role-Based Access Control — adgangsstyring baseret på roller for at begrænse rettigheder.

New cards

32. Hvilke sikkerhedshensyn er vigtige i ML-pipelines

Kryptering (at-rest/in-transit), adgangskontrol, mindskning af data, anonymisering og audit-logs.

New cards

33. Hvad er cost trade-offs mellem realtime og batch

Realtime kræver ofte mere ressourcer og dermed højere omkostninger; batch kan være billigere men med højere latens.

New cards

34. Hvad er "partitionering" i storage

Opdeling af data i logiske segmenter (fx efter dato) for hurtigere læsning og billigere opslag.

New cards

35. Hvad betyder reproducérbarhed i ML

Evnen til at gentage et eksperiment og få samme resultater ved at fastholde data, kode, miljø og seeds.

New cards

36. Hvad er "schema drift"

Ændringer i dataens struktur (feltnavne/typer) som kan bryde pipelines eller modeller.

New cards

37. Hvad er Delta Lake (kort)

Et lag over filer (ofte på ADLS) som tilføjer transaktionalitet, versioning og ACID-egenskaber til big-data (bruges ofte med Databricks).

New cards

38. Hvilke praktiske øvelser foreslår forelæsningen

Tegn arkitektur (data→transform→training→deploy), bygg en lille pipeline (ADF→Databricks→Azure ML), og deploy en model til App Service eller AKS.

New cards

39. Hvad er et typisk end-to-end forløb (kort)

Indtag (Event Hubs/ADF) → Transform (Databricks) → Storage (ADLS) → Træning (Azure ML) → Containerize (ACR) → Deploy (AKS/App Service) → Monitor (Azure Monitor).

New cards

40. Hvordan begrunder man valg af services i en eksamensopgave

Beskriv krav (latency, skala, cost, sikkerhed), vælg tjeneste baseret på disse krav, og nævn konkrete hensyn (monitoring, retrain, governance).

New cards