La polisemia nel vocabolario di base dell'Italiano


Abstract


Abstract – The existence of a relationship between frequency and polysemy in words is well known in statistical linguistics. Nevertheless, few data are available on the amount of polysemy in high-frequency words across languages, and no systematic investigation of the Italian lexicon has been carried out so far. This paper presents a detailed analysis of the number and types of senses of the about 7,000 highest frequency lexemes that constitute the basic vocabulary in Italian (vocabolario di base, VDB). Data confirm that frequency and polysemy are strongly related: the percentage of polysemic words in VDB (89%) is much greater than in the overall lexicon (19%); and within VDB, too, changes in frequency correlate with growth in polysemy. Verbs are found to be more polysemic than nouns, in the sense that there are less monosemic verbs than nouns; however, polysemic verbs and nouns give rise to a similar amount of senses (average number of senses is 7.3 in verbs and 6.6 in nouns). The crucial difference between verbs and nouns is to be found in the type, more than in the number, of their senses. In both classes the largest number of senses belongs to the area of basic/common vocabulary, but this area covers 77% of verb senses vs. 55% of noun senses. On the contrary, in nouns 34% of senses (vs. 8% in verbs) belong to the area of technical-scientific vocabulary, and 67% of nouns have at least one technical-scientific sense.

Abstract - E’ ben nota alla statistica linguistica l’esistenza di una relazione tra la frequenza delle parole e la loro polisemia. Tuttavia sono disponibili pochi dati sulla diffusione della polisemia nel lessico di alta frequenza delle lingue, e nessuna indagine sistematica in tal senso è mai stata condotta per l’italiano. La ricerca che presento fornisce un’analisi dettagliata della quantità e del tipo di accezioni dei lessemi del Vocabolario di Base (VDB) dell’italiano. I dati ottenuti confermano la forte relazione tra frequenza d’uso e polisemia: la percentuale di lessemi polisemici nel VDB (89%) è molto maggiore che nel lessico nel suo insieme (19%) e anche all’interno del VDB la quantità di lessemi polisemici varia in base alla fascia di frequenza. Dall’analisi emerge che i verbi sono più polisemici dei sostantivi, nel senso che il numero di lessemi monosemici è minore tra i verbi che tra i sostantivi. Tuttavia, se si considerano solo i verbi e i sostantivi polisemici, la quantità di accezioni generate dai due gruppi è molto simile. La differenza cruciale nel comportamento di verbi e sostantivi rispetto alla polisemia va cercata non tanto nella quantità, ma nel tipo di accezioni cui danno luogo. Per entrambe le classi il numero maggiore di accezioni si ha nell’area del vocabolario comune/basico, ma mentre nei verbi rientra in quest’ambito il 77% delle accezioni, nei sostantivi vi rientra il 55%. Per converso, il 34% delle accezioni dei sostantivi (contro l’8% di quelle dei verbi) appartiene all’area del vocabolario tecnico-scientifico, e il 67% dei sostantivi ha almeno un’accezione di tipo tecnico-scientifico.



DOI Code: 10.1285/i22390359v12p35

Keywords: Polysemy; Senses; Word Frequency; Statistical Linguistics; vocabolario di base

References


Carloni F. 2000, Le relazioni statistiche tra frequenza e significato delle parole nella lingua italiana, in “Italica” 77 [4], pp. 523-534.

Casadei F. 1994, Il lessico nelle strategie di presentazione dell’informazione scientifica: il caso della fisica, in De Mauro T. (a cura di), Studi sul trattamento linguistico dell’informazione scientifica, Bulzoni, Roma, 1994, pp. 47-69.

Chiari I. 2008, La chiave probabilistica delle lingue: teoria linguistica e applicazioni computazionali, in Fulci L. e Sciubba E. (a cura di), Linguaggio, mente e società, EuRoma, Roma, pp. 55-79.

De Mauro T. 1980, Guida all’uso delle parole, Editori Riuniti, Roma.

De Mauro T. (1999a), Introduzione al Gradit, pp. VII-XLII.

De Mauro T. (1999b), Postfazione al Gradit, vol. 6, pp. 1163-1183.

De Mauro T. (2009), Basi di conoscenze e banche dati lessicali XXI secolo, in Enciclopedia Treccani, Istituto dell’Enciclopedia Italiana, Roma. www.treccani.it/enciclopedia/basi-di-conoscenze-e-banche-dati-lessicali_XXI_Secolo (10.2.1014)

De Mauro T. e Chiari I. (a cura di) 2005, Parole e numeri. Analisi quantitative dei fatti di lingua, Aracne, Roma.

Fenk-Oczlon G. and Fenk A. 2010a, The association between word frequency and polysemy: a chicken and egg problem?, in Solovyev V. and Polyakov V. (eds.), Proceedings of the XIIth International Conference “Cognitive Modeling in Linguistics”, Kazan, Kazan State University Press, pp. 167-170.

Fenk-Oczlon G. and Fenk A. 2010b, Frequency effects on the emergence of polysemy and homophony, in “International Journal of Information Technologies and Knowledge” 4 [2], pp. 103-109.

Gradit = Grande Dizionario Italiano dell’Uso ideato e diretto da Tullio De Mauro, 6 voll., UTET, Torino, 1999 (2a ed. 8 voll., ivi, 2007).

Green G.M. 1989, Pragmatics and natural language understanding, Erlbaum, Hillsdale; trad. it. di Castelnovo W. 1990, Pragmatica, Muzzio, Padova.

Gualdo R. e Telve S. 2011, Linguaggi specialistici dell’italiano, Carocci, Roma.

Leacock C., Towell G. and Voorhees E. 1993, Corpus-based statistical sense resolution, in HLT '93 (Proceedings of the Workshop on Human Language Technology), Association for Computational Linguistics, Stroudsburg, pp. 260-265.

Miller G.A. 1995, WordNet: a lexical database for English, in “Communications of the ACM” 38 [11], pp.

-41.

Nagy W.E. 1995, On the role of context in first- and second language vocabulary learning, Technical Report 627, Center for the study of reading, College of Education, University of Illinois at Urbana-Champaign.

Sobrero A.A. 1993, Lingue speciali, in Sobrero A.A. (a cura di), Introduzione all’italiano contemporaneo. La variazione e gli usi, Laterza, Roma-Bari, pp. 237-277.

Zipf G.K. 1949, Human behaviour and the principle of least effort. An introduction to human ecology, Addison-Wesley Press, Cambridge.


Full Text: pdf

Refbacks

  • There are currently no refbacks.


Creative Commons License
This work is licensed under a Creative Commons Attribuzione - Non commerciale - Non opere derivate 3.0 Italia License.