För många år sedan forskade jag vid det internationella fysikcentret Cern utanför Genève i Schweiz. Vardagsspråket i Genève är franska, medan forskningen var på engelska. Hela institutet var tvåspråkigt, all information fanns på både franska och engelska, ofta i parallella texter bredvid varandra. Något som slog mig var att de franska texterna regelmässigt tog mycket mer plats än de engelska, ibland dubbelt så mycket. Franska behövde fler ord för att säga samma sak som engelska.
Att språk skiljer sig i hur tätt de packar sitt innehåll har lingvister egentligen vetat länge, men utan att riktigt kunna bevisa det. Nu har två forskare från USA, Pedro Aceves och James Evans, lyckats mäta informationstätheten i olika språk och bekräftat det som alla haft på känn. De har tagit texter – Bibeln, FN-dokument och annat – som finns översatta till nästan tusen olika språk och använt betydligt mer raffinerade metoder än att bara mäta textlängden. Metoderna är släkt med maskineriet bakom Chat GPT och ger matematiska mått både på hur mycket information som ryms i varje ord, och på hur nära varandra olika ord är i betydelse.