Smngprst
Hrbt Blnkstn
© Hertbert Blankesteijn 2002 |
|
Lezers
willen korte stukken en veel wit op de pagina. Veel bladen geven
ze hun zin
(Natuur en Techniek, de Ingenieur, Intermediair), en
sites op internet doen dat nog
sterker. Korter, korter! Auteurs
daarentegen pakken het liefste stevig uit. Het is meer
moeite
iets kort op te schrijven, en bovendien krijg je meestal per
woord betaald.
Graag zou ik u een
gecomprimeerd stuk aanbieden. Een computerprogramma zou als
een norse redacteur mijn lijvige verhandeling inkorten, maar het
verhaal zou zich voor
u ontvouwen in zijn oorspronkelijke
glorie. De beste compressieprogramma's voor de
computer brengen
een tekst terug tot een kwart van de omvang, en kunnen dus een
gegeven ruimte viermaal gebruiken. Een computer kan uit zo'n
gecomprimeerd
bestand het origineel precies reconstrueren. (In
zekere zin gebeurt dat daadwerkelijk
met dit stukje, want bij
verzending via modems vindt vaak automatisch compressie
plaats.)
Een internetbedrijf, ZeoSync,
heeft laatst een compressiemethode aangekondigd die
bestanden
van welke aard ook honderd keer zo klein maakt. Niet voor
de drukpers,
maar voor bezitters van computers en voor
gebruikers van internet zou dat een
revolutie betekenen. Harde
schijven die opeens honderd keer zoveel waard zijn;
downloadtijden teruggebracht tot een flits.
Honderd keer, dat kan ik ook. Sla
een 24-bits kleurenfoto op in 8-bits grijswaarden en
je wint een
factor 65.000. Enige probleem is, dat je die kleuren nooit meer
terugkrijgt. Je kunt de maten van het plaatje kleiner maken,
maar ook die bewerking
is onomkeerbaar. Dit is compressie met
verlies, en het is natuurlijk een flauw voorbeeld. Serieuze
manieren om plaatjes te comprimeren, bijvoorbeeld tot jpg-
bestanden, gaan ook altijd met verlies gepaard. Plaatjes in
jpg-vorm hebben vage
blokstructuren rond diagonale lijnen, die
je op contrastrijke afbeeldingen kunt zien. Bij
compressie van
muziek tot mp3-bestanden missen geluidsfreaks wat hoge tonen.
Compressie van video tot mpg-bestanden zorgt voor blokkige
beelden in snel
bewegende passages. De oorspronkelijke,
ongecomprimeerde informatie is weg, tenzij
natuurlijk het
origineel als apart bestand is bewaard. Verlies van informatie
moet je
accepteren als je een factor tien of meer wilt winnen.
Huiskamervraag 1: Wie kent
spectaculaire voorbeelden van verliesvrije compressie.
Geen
flauwe voorbeelden graag: een zip van een tekst met alleen maar
a's, of een
gif van een wit vlak, dat weten we wel.
ZeoSync
beweert dat zijn methode verliesvrij is. Dat is een vrij sterk
verhaal.
ZeoSync zegt bovendien dat dit zelfs het geval is als
de oorspronkelijke data
'praktisch willekeurig' zijn.
Willekeurig? Door op wiskundige
wijze naar herhalingen te zoeken, zoals de
lettercombinaties
'een' en 'ing', kan een computer een tekst als deze tot ongeveer
een
kwart samenpersen zonder verlies aan informatie. Maar tekst
is niet willekeurig; sommige
letters zoeken elkaar op. Een
willekeurige, onvoorspelbare reeks getallen, zoals de
decimale
ontwikkeling van het getal pi, is hooguit een factor twee
kleiner te krijgen (mijn
geboortedatum, geschreven als ddmmjj,
komt in de eerste vijf miljoen decimalen negen
keer voor). Een
tekening van zwarte lijnen op een witte achtergrond is zonder
verlies met
een factor honderd te verkleinen, maar alleen dank
zij de verpletterende hoeveelheid
herhaling.
Huiskamervraag 2: Ik heb protesten
ontvangen: pi is niet willekeurig! Nee, ik kan 3,1415...
(10
miljoen cijfertjes) comprimeren door te zeggen 'pi'. Of ik kan
een rekenmethode geven
(meestal een oneindige reeks). Maar dat
is wat anders. Wie kan de cijferreeks van de decimale
ontwikkeling verliesvrij comprimeren tot 10%, zonder gebruik te
maken van de wetenschap
dat het 'pi' is? Download de reeks op
http://www.verbose.net/Pi.html en laat zien!
Je kunt dit stukje van ruim 600
woorden samenvatten in zes woorden ('Zeosync kletst uit
zijn
dikke nek'), maar niet op zo'n manier dat je daaruit het
origineel exact kunt herleiden.
Kan niet. Wat ZeoSync beweert is
pertinent onzin, tenzij ze iets heel anders bedoelen.
Misschien moeten die persberichten
wat uitvoeriger.
Deze column verschijnt ook in het
weekblad Intermediair |