sMobile ? "width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1.0" : "width=1100"' name='viewport'/> android xda: abclinuxu
Showing posts with label abclinuxu. Show all posts
Showing posts with label abclinuxu. Show all posts

Sunday, 23 October 2005

Čtenost blogů

Takže mi to nedalo a udělal jsem si takovou statistiku blogů - nejčtenější zápisky atd.:




Top 20 nejkomentovanějších zápisů


místozápisblogautorkomentářů
1.Jak poznám poslední možnost útěku z republiky?golb vůšoeLLeoš Literák182
2.CzechTek fraškaRobertův bločekRobert Krátký136
3.O devalvaci pravidelKacířské myšlenkyLukáš Jelínek132
4.Linuxař a jeho telefon..andreho_blogAndre Bullock129
5.Sbohem, Darwine...David Nečas (Yeti)126
6.Nerozčilovat seNevěřícíJindřich Plešinger123
7.Gentoo, první pohledZprávy z linuxové frontyHonza "thingwath" Bartoš119
8.Stallman a spol f příštím životeNevěřícíJindřich Plešinger117
9.Místo M$ Office OOjanosh_blogZdeněk Jančík115
10.To jsme se dočkaligolb vůšoeLLeoš Literák114
11.Sraz abíčka?golb vůšoeLLeoš Literák114
12.GPLgate - my proti nám?Kacířské myšlenkyLukáš Jelínek113
13.Jakou stranu tedy volit?uz_mam_taky_blogZdeněk Štěpánek110
14.Preferování blogůBoodOkBoodOk105
15.Instalace Windows vs. LinuxNiobi v SuSEniobi103
16.Někdo mě tu začíná fakt štvátSaljackSaljack100
17.Novela silničního zákonalast_goodbyemirek96
18.V čem se učit programovat?miblogMichal Vyskočil96
19.Programování: Jak začít ?Blog...David Watzke95
20.Gnome vs. KDE právo na výběr?linux_a_jaLukáš Ramlich94




Top 20 nejčtenějších zápisů



U čtenosti jsem počítal jen tzv. dlouhé zápisy, tj. ty na které musí člověk kliknout, aby si je přečetl celé, protože jen tam je jasné, kolik lidí si jej skutečně přečetlo.


místozápisblogautorpřečteno
1.Jak stahovat pisničky a videoklipy z T-Music.czM4r3kMarek Stopka24430
2.Silent Mouse - The Second Encounterhajmahajma8552
3.Převod PDF na textLiNUX ZiNEJan Grmela3169
4.Greasemonkey skript pro Oskaří smskyplathelplathel2375
5.Upgrade na Mandrake 10.1LiNUX ZiNEJan Grmela2238
6.Všechny obrazy CD Mandrakelinux 10.1 OfficialLiNUX ZiNEJan Grmela2230
7.Ubuntu Hoary inštalácia a nastaveniaslobodaStanislav Valasek2141
8.Paskvil: Pohádkový porno příběhRobertův bločekRobert Krátký2120
9.sporitelna me nechce vpustit na CS24uz_mam_taky_blogZdeněk Štěpánek2118
10.(Lidské) OCR Hacklese (updated)David Nečas (Yeti)2016
11.Návrh na online budovanou učebnici Linuxugolb vůšoeLLeoš Literák1887
12.Nový Adobat Reader 7.0PlastiqueVlastimil Ott1870
13.Ach ten Firefox.M4r3kMarek Stopka1837
14.Počítačové díly zdarmaOrwellFilip Korbel1718
15.Acer TravelMate - UbuntuPůlnoční blogIvo Rebenda1675
16.VoipBuster - volání (nejen) po ČR zdarma!Jaderný blogMichal Křenek1634
17.Prodej ČTc.čtvrtletníkKillgore Trout1616
18.Tábory, tábory, tábory ...zápiskyGeBu1595
19.Děti opanovaly internetsem_manasdebil1552
20.Zdrojový kód JXP (aktualizováno!)David Nečas (Yeti)1459


Průměrná čtenost dlouhých zápisů




Dlouhý zápis si v průměru přečte 584 lidí. V top 20 se hodně umisťují bloggeři s pouze jedním nebo dvěma zápisy, které byly dostatečně zajímavé. Udržet stabilně vysokou sledovanost není zřejmě jednoduché a daří se to zejména Yetimu a Janu Grmelovi. Celebrity jsou většinou někde vzadu: Jindřich Plešinger 25. místo, Robert Krátký 27. místo, Vlastimil Ott 65. místo, Leoš Literák 66. místo a grafoman Lukáš Jelínek s 99 dlouhými zápisy až na 108. pozici.




místoautorčtenostpočet zápisů
1.Marek Stopka2447,113
2.Killgore Trout1492,52
3.David Nečas (Yeti)1170,18
4.Jakub Lánský11161
5.Jan Grmela1075,914
6.Karel10531
7.Dan Ohnesorg10352
8.Dušan Ivančo10221
9.hajma1014,617
10.Filip Korbel977,73
11.debil9602
12.Petr Šobáň9221
13.Václav Bobek9071
14.Jaroslav Šmíd891,52
15.Radek Vokál8752
16.user8431
17.Jiří8421
18.Martin Fiala8252
19.Rastislav Stanik818,73
20.Dušan Hokův8165




V případě průměrné komentovanosti dlouhých zápisů je to velmi podobné. Průměrně získá zápis 15 komentářů. Nejvíce jsou komentovány flamebaity málo aktivních uživatelů. Jindřich Plešinger se s průměrnými 43,8 komentáři umístil na pěkném 7. místě. Yeti na 13. pozici. Tabulku nemá ani cenu sem dávat.



Momentálně má seznam.cz nějaký problémy, až přestanou, hodím na web zdrojový data.



Update:Tady to je


Thursday, 20 October 2005

Čtenost

Když tak sleduju flame kolem JXP, napadlo mě, že by mohlo být zajímavé sestavit žebříček blogů podle čtenosti. Myslím, že už někdo kdysi dal dohromady nejaktivnější bloggery, to by mohlo být podobné. Top 10 nejčtenějších zápisů, top 10 nejčtenějších bloggerů... Samozřejmě by se musely počítat jen blogy na které se musí kliknout, u těch mikrozápisů je hodnota čtenosti pochybná. Nechcete se toho někdo ujmout? Nějakým skriptíkem by to urřitě šlo zautomatizovat, ne?

Sunday, 2 October 2005

Anketa

Napadla mne anketa na téma "Jakou www stránku si denně otevřete jako první?", s možnostmi www.abclinuxu.cz, www.abclinuxu.cz/blog, www.root.cz, www.zive.cz, www.seznam.cz, www.google.com, www.idnes.cz, jinou. Nevynechal jsem nejakou významnou www? Díky.

Saturday, 10 September 2005

Diakritika a slovenština na abclinuxu.cz

Při pročítání diskuze na abclinuxu.cz mi vždycky připadalo, že příspěvky ve slovenštině jsou daleko častěji psány bez diakritiky (Nic proti slovenštině, ale bez háčků a čárek se mi čte daleko hůř). A tak jsem se rozhodl exaktně ověřit, jestli je to tak.


A výsledek je takový:

58,2 % příspěvků je psáno s diakritikou, naopak bez diakritiky je jich 39,5 %. Zbývající 2,3 % jsou příspěvky bez textového obsahu, tj. smajlíci, čísla apod.

Česky je napsáno 80,1 % zápisů, slovensky 15,5 %, u zbývajících 4,4 % nelze rozpoznat použitý jazyk.

Jedna třetina (33,0 %) česky psaných zápisů neobsahuje háčky, u slovenštiny jsou to naopak téměř tři čtvrtiny (73,1 %) - z toho vyplývá jednoznačný závěr: Slováci (na abclinuxu.cz) kašlou na diakritiku více než Češi.

graf
Postup:

Využil jsem toho, že diskuze je přístupná přes rozhraní news. Programem slrn-pull jsem stáhnul na disk posledních 10 000 příspěvků. Základní rozdělení na příspěvky s diakritikou a bez diakritiky jsem provedl na základě hlavičky Content-type (tj. ascii/ISO-8859-2) (tj. počítá se jen tělo příspěvku, nikoliv subject; to je logické, protože je jistě spousta případů, kdy bezháčkový člověk odpoví na příspěvek s háčkovaným subjectem). Při té příležitosti jsem z příspěvků odstranil patičky abclinuxu (linky na diskuzi):

#!/bin/bash
adresarcil="/home/hajma/tmp/recode"
adresarzdroj="/var/spool/slrnpull/news/gmane/user-groups/linux/czech"
for soubor in $(ls $adresarzdroj)
do
cat $adresarzdroj/$soubor | formail -x Content-Type | grep us-ascii
if [ $? -eq 0 ]
then
cat $adresarzdroj/$soubor | formail -I "" | sed -r /"^Zobrazit diskusi: http:\/\/www.abclinuxu.cz\/forum\/show\/"\|"^Zobrazit komentar: http:\/\
/www.abclinuxu.cz\/forum\/show\/"/d > $adresarcil/ascii/$soubor
else
cat $adresarzdroj/$soubor | formail -x Content-Type | grep ISO-8859-2
if [ $? -eq 0 ]
then
cat $adresarzdroj/$soubor | formail -I "" | sed -r /"^Zobrazit diskusi: http:\/\/www.abclinuxu.cz\/forum\/show\/"\|"^Zobrazit komentar: http:\
/\/www.abclinuxu.cz\/forum\/show\/"/d | recode l2/qp..l2 > $adresarcil/iso/$soubor
fi
fi
done

Vlastní metoda rozdělení podle jazyka byla jednoduchá: pokud příspěvek obsahuje více českých slov, je český a vice versa.

Pro svůj účel jsem využil český a slovenský slovník MySpell, které jsem ale nejprve musel zbavit pomocných znaků a převést na malá písmena:

#!/bin/bash
adresarcil="/home/hajma/tmp/recode"
adresarzdroj="/usr/share/dict/ooo/"
cat $adresarzdroj/cs_CZ.dic | sed -e s@"\/.*$"@@g | tr '[:upper:]' '[:lower:]' | sort | uniq > $adresarcil/cz.txt
cat $adresarzdroj/sk_SK.dic | sed -e s@"\/.*$"@@g | tr '[:upper:]' '[:lower:]' | sort | uniq > $adresarcil/sk.txt

Z českého slovníku jsem ještě ručně odstranil slovo "a".

Z obou souborů jsem dále odstranil slova, která se vyskytují i ve druhém jazyce:

#!/bin/bash
adresar="/home/hajma/tmp/recode"
for slovo in $(cat $adresar/cz.txt)
do
grep -wq $slovo $adresar/sk.txt
if [ $? -eq 1 ]
then
echo $slovo >> $adresar/cisteceskaslova.txt
fi
done
for slovo in $(cat $adresar/sk.txt)
do
grep -wq $slovo $adresar/cz.txt
if [ $? -eq 1 ]
then
echo $slovo >> $adresar/cisteslovenskaslova.txt
fi
done

Potom jsem bral soubor po souboru, odstranil z nich cokoliv, co nebylo písmeno (díky, Yeti) a vyhledával jednotlivá slova v českém a slovenském slovníku.

#!/bin/bash
adresar="/home/hajma/tmp/recode/iso"
for soubor in $(ls $adresar)
do
cz=0
sk=0
for slovo in $(cat $adresar/$soubor | sed 's/[^[:alpha:]]\+/\n/g' | sed 's/^[ \t]*//;s/[ \t]*$//' | sed '/^
$/d' | tr '[:upper:]' '[:lower:]')
do
#echo $slovo
grep -wq -e $slovo /home/hajma/tmp/recode/cisteceskaslova.txt
if [ $? -eq 0 ]
then
cz=$((cz+1))
fi
grep -wq -e $slovo /home/hajma/tmp/recode/cisteslovenskaslova.txt
if [ $? -eq 0 ]
then
sk=$((sk+1))
fi
done
if [ $cz -gt $sk ]
then
cp $adresar/$soubor /home/hajma/tmp/recode/diacz
elif [ $cz -lt $sk ]
then
cp $adresar/$soubor /home/hajma/tmp/recode/diask
elif [ $cz -eq 0 ]
then
cp $adresar/$soubor /home/hajma/tmp/recode/dianeznamo
else
cp $adresar/$soubor /home/hajma/tmp/recode/diaczsk
fi
done
Update: Zapomněl jsem doplnit, že podobně se to udělá i pro příspěvky bez diakritiky (převod slovníků na bezháčkové probíhá pomocí recode takto:
cat $adresarcil/cz.txt | recode -f l2..flat | sort | uniq > czbezhacku.txt

Monday, 3 January 2005