Formålet med dette datasæt er at træne embedding-modeller til retrieval på dansk.
Dette datasæt blev oprettet ved at vise ca. 30.000 Wikipedia-afsnit til LLM’er og bede dem om at generere forespørgsler (queries), der ville returnere det pågældende afsnit.
For hvert af de 30.000 afsnit i det oprindelige Wikipedia-datasæt brugte vi 3 forskellige LLM’er til at generere forespørgsler: ThatsGroes/Llama-3-8b-instruct-SkoleGPT, google/gemma-2-27b-it og Cohere-For-AI/aya-expanse-32b. Dermed blev der genereret 3 forespørgsler pr. afsnit. Som bruger af dette datasæt bør du derfor selv vælge, hvilke afsnit du vil benytte. Du kan f.eks. vælge kun at bruge forespørgsler genereret af én bestemt LLM. Manuel inspektion tyder på, at google/gemma-2-27b-it genererede de mest meningsfulde resultater, så et deldatasæt med kun disse eksempler findes her: https://huggingface.co/datasets/DDSC/da-wikipedia-queries-gemma. Et yderligere forbehandlet deldatasæt af DDSC/da-wikipedia-queries findes her: https://huggingface.co/datasets/DDSC/da-wikipedia-queries-gemma-processed/settings.
Prompten, der blev brugt til at generere forespørgslerne, findes i kolonnen “prompt”. De genererede forespørgsler er i kolonnen “query”. Afsnittene er i kolonnen “positive”.
Modellerne blev kørt på en GPU-server med et Nvidia A100 GPU, venligst stillet til rådighed af Arrow Denmark og Nvidia.
Genereringen af dette datasæt forbrugte 1,16 kWh på GPU, CPU og RAM og udledte 174 g CO2 ifølge målinger fra codecarbon.
For flere detaljer om metodologien, se denne MTEB-diskussion (https://github.com/embeddings-benchmark/mteb/discussions/1353#discussioncomment-11155047) og tjek Github-repositoriet (https://github.com/meshachaderele/ddsc-llm) for dette projekt.
Licensen er en Creative Commons Attribution-ShareAlike 3.0 Unported, også kaldet CC-BY-SA 3.0.