Slova, slova, slova nejen v mraku dánském
Wordle je takový roztomilý projekt, jenž vám ze sady slov, která mu zadáte, nebo která najde na odkázaném webu, sestaví tag cloud, abyste poznali, o čem to vlastně píšete.
Co to čtete princi?
Pustil jsem ho i na Zdroják a výsledek není vůbec mimo:

Řadu další vygenerovaných obrázků najdete na Google nebo si můžete vygenerovat vlastní.

Vše z Blog Root.cz
Vizuálně pěkné, ale když jsem to pustil na pár českých stránek, vracelo to náhodné shluky slov, i těch bezvýznamných, které jsou v každém textu, nejen klíčových.
A taky škoda tohohle:
"May I see the source code?"
"Unfortunately, no."
Zajímavé :)
[1] K čemu koukat do zdrojáku?
"May I see the source code?"
"Unfortunately, no."
jak to asi bude fungovat?! najde se vyskyt nejcastejsich slov.
frekvence vyskytu slova odpovida jeho velikost v mraku.
se sadou vybranych slov a s velikosti jejich textboxu se zacnou skladat textboxy,
tak aby vyplnila co nejmensi plocha.
to uz je trimming problem, optimalizace skladani ruzne velkych zlatych cihel do batohu,
na to jsou zname ruzne algoritmy.
Může být ten výsledek i klikací?
Ehm.. Taky bych rekl, ze vyber slov do cloudu by to chtelo trosku zlepsit, napriklad z toho zde uvedeneho vypustit nic nerikajici slova jako "kazdy", "dalsi", "Dnes", "krokem" a "zde". Taktez se mi jevi, ze nektera slova jsou tam jaksi navic, ikdyz nejsou moc bezna, treba me udivuje "Wolfenstein" - sice nemam Zdrojak precteny od A do Z, ale ze by se mu nejak venoval, o tom pochybuji :-).
kdyby se daly definovat stop-slova, bylo by to imho o neco lepsi...
[5] Zrovna teď věnoval. Velikost jeho zobrazení odpovídá jednomu nalezenému výskytu. Při vygenerování o pár týdnů později by tam už nebyl a místo něj by se objevilo něco jiného. Prostý šum.
[2] spíš si to nainstalovat u sebe a použít v nějakém svém projektu – ale vzhledem ke kvalitě výstupu, by asi stejně bylo lepší si to napsat po svém a přizpůsobit češtině.
[5] to asi souvisí s těmi 3D HTML hrami.
[6] no on tam ten seznam stop-slov je, akorát není úplně přizpůsobenej na češtinu. s angličtinou funguje mnohem líp. možná kdyby si někdo dal tu práci a autorovi poslal českej, třeba by ho tam zadělal.
[9] on by spis autor mohl vydat zdrojaky a neohanet se IBM ;-)