Danmarks Breve: træningsdata

dc.contributor.authorDet Kgl. Bibliotek
dc.date.accessioned2026-01-09T10:12:08Z
dc.date.available2026-01-09T10:12:08Z
dc.date.issued2026-01-12
dc.description.abstractDatasættet består af 13516 breve skrevet fra 1500-tallet til 1900-tallet af danskere med historisk og kulturel betydning. Det er skabt af Det Kgl. Bibliotek, men er defineret af Digitaliseringsstyrelsen med henblik på træning af danske sprogmodeller. Datasættets tekst indhold, samt metadata baserer sig på de TEI-filer, der bliver benyttet til Det Kgl. Biblioteks samlingen “Danmarks Breve”. Samlingen indeholder digitaliseringer af en lang række trykte brevudgivelser fra Det Kgl. Biblioteks samlinger, udgivet over en længere årrække af mange forskellige udgivere. Teksterne er digitaliseret med OCR-skanning. Det har ikke været muligt at skaffe maskinproducerede OCR-konfidenstal til at beskrive OCR-kvaliteten, men kvaliteten af den digitaliserede tekst vurderes ved øjesyn at være god. OCR-kvaliteten er ikke forsøgt efterbehandlet med henblik på fejlrensning. Størstedelen af tekstindholdet er dansk og hovedsageligt historisk dansk. En mindre del af indholdet er på et andet sprog, f.eks. tysk og engelsk. Datasættet findes både i et csv format og i parquet format. Filerne er zippet med 7-Zip, som skal downloades og benyttes til at pakke filerne ud. Find beskrivelse af datasættes felter i readme filen. Datasæt er Public Domain.
dc.identifier.urihttps://loar.kb.dk/handle/1902/49124
dc.language.isodk
dc.relationDanmarks Breve: datasæt med breve uden for ophavsret
dc.rightsPublic Domain Mark 1.0en
dc.rights.urihttp://creativecommons.org/publicdomain/mark/1.0/
dc.subjecttræningsdata
dc.subjecttraining data
dc.subjectdansk
dc.subjectDanish
dc.subjectbrev
dc.subjectletters
dc.subjectPublic Domain
dc.titleDanmarks Breve: træningsdata
dc.typeDataset
Files
Original bundle
Now showing 1 - 3 of 3
Loading...
Thumbnail Image
Name:
Readme.pdf
Size:
93.26 KB
Format:
Adobe Portable Document Format
Description:
Loading...
Thumbnail Image
Name:
Danmarks Breve final.parquet
Size:
52.08 MB
Format:
Unknown data format
Description:
Loading...
Thumbnail Image
Name:
Danmarks Breve final.csv
Size:
85.92 MB
Format:
Comma Separated Values, i.e. for importing into spreadsheets.
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
4.86 KB
Format:
Item-specific license agreed upon to submission
Description:
Collections