Statslige Digitale Publikationer - træningsdata

dc.contributor.authorDet Kgl. Bibliotek
dc.date.accessioned2026-01-09T11:52:50Z
dc.date.available2026-01-09T11:52:50Z
dc.date.issued2026-01-12
dc.description.abstractDatasættet består af 14465 statslige digitale publikationer indsamlet af Det Administrative Bibliotek, der indtil 1. januar 2025 var Det Kgl. Biblioteks service for ansatte i centraladministrationen. Datasættet er skabt af Det Kgl. Bibliotek, men defineret af Digitaliseringsstyrelsen med henblik på træning af danske sprogmodeller. En del af teksterne er digital-fødte tekster, mens en anden del af teksterne er digitaliseret med OCR-skanning. Ved tidspunktet for udgivelsen af datasættet har det været umuligt at skaffe oplysninger om, hvilke dele der er digitaliseret med OCR, men det antages at materiale udgivet før 2000 er digitaliseret. Det har ikke været muligt at skaffe maskinproducerede OCR-konfidenstal til at beskrive OCR-kvaliteten, men kvaliteten af den digitaliserede tekst vurderes ved øjesyn at være god. OCR-kvaliteten er ikke forsøgt efterbehandlet med henblik på fejlrensning. Hovedparten af teksterne er skrevet på dansk. En meget lille del er på forskellige andre sprog. Nogle ganske få tekster er skrevet på flere sprog. Det er f.eks. en vejledning på både dansk og grønlandsk. Datasættet findes både i et csv format og i parquet format. Filerne er zippet med 7-Zip, som skal downloades og benyttes til at pakke filerne ud. Licens: Love, administrative forskrifter, retsafgørelser, rapporter, betænkninger, vejledninger og lignende offentlige aktstykker er ikke genstand for ophavsret. Du kan frit kopiere, distribuere eller fremføre materialet uden at bede om tilladelse. Persondata: Datasættet stammer fra statslige digitale publikationer offentliggjorte på ministeriers og styrelsers hjemmesider. Love, administrative forskrifter, retsafgørelser og lignende offentligt tilgængelige aktstykker er ikke undergivet særlige beskyttelseshensyn. Du kan læse mere om Det Kgl. Biblioteks behandling af personoplysninger i de statslige digitale publikationer her (oplysningstekst - se vedhæftet). (Læs mere i Readme fil - vedhæftet).
dc.identifier.urihttps://loar.kb.dk/handle/1902/49125
dc.language.isodk
dc.rightsCC0 1.0 Universalen
dc.rights.urihttp://creativecommons.org/publicdomain/zero/1.0/
dc.titleStatslige Digitale Publikationer - træningsdata
dc.typeDataset
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Oplysningstekst statslige digitale publikationer.pdf
Size:
141.3 KB
Format:
Adobe Portable Document Format
Description:
Loading...
Thumbnail Image
Name:
parquet_statpub_whole_dataset_06012026.7z
Size:
1.77 GB
Format:
Unknown data format
Description:
Loading...
Thumbnail Image
Name:
csv_statpub_whole_dataset_06012026.zip
Size:
1.19 GB
Format:
ZIP archive
Description:
Loading...
Thumbnail Image
Name:
Readme.pdf
Size:
127.17 KB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
4.86 KB
Format:
Item-specific license agreed upon to submission
Description: