A corpus-driven and corpus-based analysis of collocations in news articles on COVID-19
Karalevičiūtė, Gintarė |
Pastaruosius keletą dešimtmečių tekstynų lingvistika atliko svarbų vaidmenį kalbų studijose. Informacinių technologijų (IT) pažanga paskatino lingvistus pritaikyti šias technologijas tekstynų lingvistikos metodo tobulinimui. Tekstynų lingvistikos terminas apibūdinamas kaip kalbos tyrimas kompiuterio pagalba analizuojant didelės apimties sakytinių ar rašytinių tekstų rinkinius. Kadangi šiame baigiamąjame darbe analizuojamos kolokacijos COVID-19 naujienų straipsniuose, svarbu apibrėžti kolokacijų terminą. Tai yra pastovių frazių poklasis, kurio dalys negali keistis ar pasikeisti vietomis. Kolokacijos vaidina svarbų vaidmenį skirtingose kalbose ir kultūrose, kurios priima kolokacijas kaip kalbėjimo ir rašymo normą. Šio darbo tikslas - išanalizuoti kolokacijų vartojimą COVID-19 naujienų straipsniuose. Darbo tikslui pasiekti buvo suformuluoti trys tyrimo klausimai: (1) kokie kolokacijų tipai yra vartojami COVID-19 naujienų straipsniuose? (2) kokios kolokacijos yra dažniausios COVID-19 naujienų straipsniuose? (3) kaip kolokacijų pasirinkimas COVID-19 naujienų straipsniuose atspindi to laikotarpio situaciją? Tyrimo duomenys yra paimti iš Koronaviruso tekstyno (angl. The Coronavirus Corpus), kurį sudaro naujienų straipsniai apie koronavirusą, viso 270 milijonų žodžių, ir kurio apimtis kasdien padidėja 3-4 milijonais žodžių. Tyrime taikyti kiekybiniai ir kokybiniai duomenų rinkimo metodai ir kiti metodai tokie kaip tekstynų lingvistika, sinchroninis, aprašomasis ir lyginamasis metodai. Tyrimo išvados atskleidė, kad dažniausiai vartojami kolokacijų tipai COVID-19 naujienų straipsniuose yra daiktavardžio-daiktavardžio ir būdvardžio-daiktavardžio kolokacijos, atsižvelgiant į lingvistinį naujienų straipsnių žanro pobūdį. Taip pat, rezultatai rodo, kad dažniausia kolokacija COVID-19 naujienų straipsniuose yra time immemorial (liet. neatmenami laikai), po to yra tokios kolokacijos kaip naujas koronavirusas (ang. novel coronavirus), žmonės taikiai (ang. people peaceably), psichinė sveikata (ang. mental health), ir nauja forma (ang. new variant). Naujienų straipsnių žanre išryškėja tendencija: būdvardžio-daiktavardžio kolokacijos tipo dominavimas ir emocijų bei autoriaus požiūrio į koronavirusą perteikimas būdvardžių pagalba. Taip pat, konkordansai (rodančios ieškomą žodį ir žodžius, kurie eina prieš jį ir po jo, paimtus iš tekstyno) parodė, kad COVID-19 padėtis blogėjo laikotarpyje nuo 2020 m. gegužės iki 2021 m. sausio mėnėsio. Būsimi tyrimai galėtų sėkmingai giliau nagrinėti tyrimo temą, analizuojant ir lyginant kolokacijas mokslo populiarinimo ir akademiniame diskursuose, kurie pristato COVID-19 naujienas, arba dviejuose duomenų rinkiniuose – amerikiečių anglų kalbos ir britų anglų kalbos.
Corpus linguistics has performed a significant role in language studies over the last few decades. The advancement of information technology (IT) has encouraged linguists to apply it for improving corpus linguistics. The term corpus linguistics is described as the study of language data with the computer-aided analysis of very extensive collections of transcribed utterances or written texts. Whereas the present paper analyses collocations in news articles on COVID-19, it is important to define the term collocations. It is a subclass of set phrases whose parts cannot change or switch places. Collocations are the part of different languages and cultures, which accept collocations as a norm in speaking and writing. The aim of the research paper is to analyze the usage of collocations in news articles on COVID-19. To reach the aim of the thesis, three research questions have been formulated: (1) what are the types of collocations used in news articles on COVID-19? (2) what are the most frequent collocations in news articles on COVID-19? (3) how does the choice of collocations in news articles on COVID-19 reflect the situation over the period? The research data was extracted from The Coronavirus Corpus, which consists of news articles on coronavirus including 270 million words in size and continues to expand by 3–4 million words every day. Quantitative and qualitative approaches to data and other methods such as corpus linguistics, synchronic, descriptive, and comparative were employed. The findings of the research have revealed that noun plus noun and adjective plus noun types of collocations are the most frequent in COVID-19 news articles according to the linguistic nature of the genre of news articles. In addition, the results suggest that the collocation most often occurring in news articles on COVID-19 is time immemorial followed by collocations such as novel coronavirus, people peaceably, mental health, and new variant. A tendency emerges in the genre of news articles: the dominance of adjective plus noun collocations and conveying emotions and an author’s attitude to coronavirus with the help of adjectives. The collocations show the tendency of adjective plus noun collocations being dominant in the genre of news articles and adjectives aiding to convey emotions and the writer’s point of view to coronavirus. Moreover, the concordance lines showed that the COVID-19 situation was getting worse over the period from May 2020 to January 2021. Future studies could fruitfully explore research topic further by analyzing and comparing collocations in popular scientific and academic discourses presenting COVID-19 news or in two data collections: American English and British English.