Eugeniusz Oniegin Puszkina

Inżynierowie komunikacji interesujący się językiem jako kodem wypracowali metodę matematycznego wyliczenia ilości informacji przekazywanej przez każdą jednostkę w łańcuchu Markowa. Analizowanym tekstem byl Eugeniusz Oniegin Puszkina: należy zauważyć, że jednostkami byty litery alfabetu rosyjskiego, a nie fonemy języka mówionego. Studium opublikowano po francusku w „Bulletin of the Imperial Academy of Sciences” VII, Petersburg 1913.

Krótko mówiąc, zależy ona od liczby pytań wymagających odpowiedzi „tak“ lub „nie“, potrzebnych do zidentyfikowania danej jednostki. (Zna tę technikę każdy, kto grał kiedyś w „dwadzieścia pytań“.) Informacja uzyskana z odpowiedzi na jedno takie pytanie nazywa się „binitem“ lub „bitem“ (co pochodzi od ang. wyrażenia binary digit). Stosując metodę kolejnego dzielenia za pomocą prostego wyboru binarnego, stwierdzimy, że całkowitą liczbę pytań x potrzebnych do zidentyfikowania liczby N przedmiotów można wyrazić logarytmem o podstawie 2 (nie 10 jak w tabelach logarytmicznych, którymi się normalnie posługujemy). Formuła brzmi: x = logN. Sytuację tę wyjaśnia tabela, w której 8 przedmiotów, oznaczonych literami od A do H, grupuje się według kolejnych podpodziałów oznaczonych odpowiedziami pozytywnymi (+) lub negatywnymi (-) na pytania klasyfikacyjne 3:

Zasadnicze grupy tworzą tu odpowiedzi na 3 podstawowe pytania, a 3 jest potęgą, do której trzeba podnieść 2, by otrzymać 8. Innymi słowy, jeśli chodzi o informację, tych 8 przedmiotów ma logi równy 3. Rozważmy konkretny przykład: chcemy sklasyfikować szereg fonemów: możemy dokonać tego zadając pytania w rodzaju: nosowy czy nienosowy? dźwięczny czy bezdźwięczny? trący czy zwarty? itd. Liczba potrzebnych pytań jest wyraźnie związana z ilością informacji, jaką otrzymujemy co do właściwego charakteru tego fonemu.

Leave a Reply