POLSKI
1. Informacje ogólne
Tytuł zbioru danych: Zintegrowane podejście do roli metafory w ewolucji języka
Kierownik grantu: dr Michael Pleyer
Współwykonawca: dr Marek Placiński
kontakt: Marek Placiński, marpla@umk.pl
Data zbiórki danych: marzec 2023
Miejsce zbiórki danych: Toruń, Polska
słowa-klucze: wielkie modele językowe, automatyczna identyfikacja metafory, językoznawstwo komputerowe, teoria metafory konceptualnej, ewolucja kulturowa języka
źródło finansowania: Narodowe Centrum Nauki, program Polonez Bis, umowa nr 2021/43/P/HS2/02729.
2. Opis danych
code.zip zawiera kod napisany w języku Python, który posłużył do 1) dopasowania wielkiego modelu językowego PolBERT do naszego zbioru danych 2) obliczenia entropii informacyjnej 3) zidentyfikowanie wyrażeń potencjalnie metaforycznych na podstawie entropii
Dataset.zip zawiera dwie bazy danych: zbiór tekstów zawierających interesujące nas słowa-klucze (patrz powiązany artykuł). Teksty pochodzą z dwóch korpusów, Elektroniczny korpus tekstów polskich z XVII i XVIII w. (https://korba.edu.pl/query_corpus/) oraz Mikrokorpus polszczyzny 1830-1918 (http://www.f19.uw.edu.pl/2017/01/korpus-wersja-zaktualizowana/)
data utworzenia danych: 12.06.2024
3. Licencja: CC0 1.0 Universal
4. Zbiórka danych
Dane zostały automatycznie wyekstrahowane z korpusów Elektroniczny korpus tekstów polskich z XVII i XVIII w. oraz Mikrokorpus polszczyzny 1830-1918 (http://www.f19.uw.edu.pl/2017/01/korpus-wersja-zaktualizowana/)
5. Informacja o danych
nazwy zmiennych:
metaphorical - czy dane słowo ma znaczenie metaforyczne
word - lemat słowa-klucza
sent - zdanie, w którym dane słowo występuje
ENGLISH
1. General information
Title:
Integrating Approaches to the Role of Metaphor in the Evolutionary Dynamics of Language
PI: Michael Pleyer, PhD
Co-investigator: Marek Placiński, PhD
contact information: Marek Placiński, marpla@umk.pl
Date of data collection: czerwiec/lipiec 2024
Geographic location of data collection: Toruń, Polska
keywords: large language models, computational linguistics, automatic metaphor identification, evolutionary linguistics, conceptual metaphor theory
source of funding: National Science Centre, Poland, Polonez Bis program, agreement no 2021/43/P/HS2/02729.
2. Data and file overview
code.zip - contains Python code that was used to 1) fine-tune PolBERT LLM to our downstream task, 2) compute information entropy, 3) identify potentially metaphorical words based on enthropy
Dataset.zip contains two dataset: a collection of texts that contain keywords (see the related paper). The texts come from two corpora, Elektroniczny korpus tekstów polskich z XVII i XVIII w. (https://korba.edu.pl/query_corpus/) and Mikrokorpus polszczyzny 1830-1918 (http://www.f19.uw.edu.pl/2017/01/korpus-wersja-zaktualizowana/)
The files were created on 12.06.2024
3. Licence: CC0 1.0 Universal
4. Methodological information
Methods: the data was automatically extracted from Elektroniczny korpus tekstów polskich z XVII i XVIII w. (https://korba.edu.pl/query_corpus/) and Mikrokorpus polszczyzny 1830-1918 (http://www.f19.uw.edu.pl/2017/01/korpus-wersja-zaktualizowana/)
5. Data-specific information
names of variables:
metaphorical - whether the word is metaphorical
word - keyword lemma
sent - the sentence in which the keyword is attested
(2024)