android xda: abclinuxu

Showing posts with label abclinuxu. Show all posts

Sunday, 23 October 2005

Čtenost blogů

Takže mi to nedalo a udělal jsem si takovou statistiku blogů - nejčtenější zápisky atd.:

Top 20 nejkomentovanějších zápisů

místo	zápis	blog	autor	komentářů
1.	Jak poznám poslední možnost útěku z republiky?	golb vůšoeL	Leoš Literák	182
2.	CzechTek fraška	Robertův bloček	Robert Krátký	136
3.	O devalvaci pravidel	Kacířské myšlenky	Lukáš Jelínek	132
4.	Linuxař a jeho telefon..	andreho_blog	Andre Bullock	129
5.	Sbohem, Darwine...	∄	David Nečas (Yeti)	126
6.	Nerozčilovat se	Nevěřící	Jindřich Plešinger	123
7.	Gentoo, první pohled	Zprávy z linuxové fronty	Honza "thingwath" Bartoš	119
8.	Stallman a spol f příštím živote	Nevěřící	Jindřich Plešinger	117
9.	Místo M$ Office OO	janosh_blog	Zdeněk Jančík	115
10.	To jsme se dočkali	golb vůšoeL	Leoš Literák	114
11.	Sraz abíčka?	golb vůšoeL	Leoš Literák	114
12.	GPLgate - my proti nám?	Kacířské myšlenky	Lukáš Jelínek	113
13.	Jakou stranu tedy volit?	uz_mam_taky_blog	Zdeněk Štěpánek	110
14.	Preferování blogů	BoodOk	BoodOk	105
15.	Instalace Windows vs. Linux	Niobi v SuSE	niobi	103
16.	Někdo mě tu začíná fakt štvát	Saljack	Saljack	100
17.	Novela silničního zákona	last_goodbye	mirek	96
18.	V čem se učit programovat?	miblog	Michal Vyskočil	96
19.	Programování: Jak začít ?	Blog...	David Watzke	95
20.	Gnome vs. KDE právo na výběr?	linux_a_ja	Lukáš Ramlich	94

Top 20 nejčtenějších zápisů

U čtenosti jsem počítal jen tzv. dlouhé zápisy, tj. ty na které musí člověk kliknout, aby si je přečetl celé, protože jen tam je jasné, kolik lidí si jej skutečně přečetlo.

místo	zápis	blog	autor	přečteno
1.	Jak stahovat pisničky a videoklipy z T-Music.cz	M4r3k	Marek Stopka	24430
2.	Silent Mouse - The Second Encounter	hajma	hajma	8552
3.	Převod PDF na text	LiNUX ZiNE	Jan Grmela	3169
4.	Greasemonkey skript pro Oskaří smsky	plathel	plathel	2375
5.	Upgrade na Mandrake 10.1	LiNUX ZiNE	Jan Grmela	2238
6.	Všechny obrazy CD Mandrakelinux 10.1 Official	LiNUX ZiNE	Jan Grmela	2230
7.	Ubuntu Hoary inštalácia a nastavenia	sloboda	Stanislav Valasek	2141
8.	Paskvil: Pohádkový porno příběh	Robertův bloček	Robert Krátký	2120
9.	sporitelna me nechce vpustit na CS24	uz_mam_taky_blog	Zdeněk Štěpánek	2118
10.	(Lidské) OCR Hacklese (updated)	∄	David Nečas (Yeti)	2016
11.	Návrh na online budovanou učebnici Linuxu	golb vůšoeL	Leoš Literák	1887
12.	Nový Adobat Reader 7.0	Plastique	Vlastimil Ott	1870
13.	Ach ten Firefox.	M4r3k	Marek Stopka	1837
14.	Počítačové díly zdarma	Orwell	Filip Korbel	1718
15.	Acer TravelMate - Ubuntu	Půlnoční blog	Ivo Rebenda	1675
16.	VoipBuster - volání (nejen) po ČR zdarma!	Jaderný blog	Michal Křenek	1634
17.	Prodej ČTc.	čtvrtletník	Killgore Trout	1616
18.	Tábory, tábory, tábory ...	zápisky	GeBu	1595
19.	Děti opanovaly internet	sem_manas	debil	1552
20.	Zdrojový kód JXP (aktualizováno!)	∄	David Nečas (Yeti)	1459

Průměrná čtenost dlouhých zápisů

Dlouhý zápis si v průměru přečte 584 lidí. V top 20 se hodně umisťují bloggeři s pouze jedním nebo dvěma zápisy, které byly dostatečně zajímavé. Udržet stabilně vysokou sledovanost není zřejmě jednoduché a daří se to zejména Yetimu a Janu Grmelovi. Celebrity jsou většinou někde vzadu: Jindřich Plešinger 25. místo, Robert Krátký 27. místo, Vlastimil Ott 65. místo, Leoš Literák 66. místo a grafoman Lukáš Jelínek s 99 dlouhými zápisy až na 108. pozici.

místo	autor	čtenost	počet zápisů
1.	Marek Stopka	2447,1	13
2.	Killgore Trout	1492,5	2
3.	David Nečas (Yeti)	1170,1	8
4.	Jakub Lánský	1116	1
5.	Jan Grmela	1075,9	14
6.	Karel	1053	1
7.	Dan Ohnesorg	1035	2
8.	Dušan Ivančo	1022	1
9.	hajma	1014,6	17
10.	Filip Korbel	977,7	3
11.	debil	960	2
12.	Petr Šobáň	922	1
13.	Václav Bobek	907	1
14.	Jaroslav Šmíd	891,5	2
15.	Radek Vokál	875	2
16.	user	843	1
17.	Jiří	842	1
18.	Martin Fiala	825	2
19.	Rastislav Stanik	818,7	3
20.	Dušan Hokův	816	5

V případě průměrné komentovanosti dlouhých zápisů je to velmi podobné. Průměrně získá zápis 15 komentářů. Nejvíce jsou komentovány flamebaity málo aktivních uživatelů. Jindřich Plešinger se s průměrnými 43,8 komentáři umístil na pěkném 7. místě. Yeti na 13. pozici. Tabulku nemá ani cenu sem dávat.

Momentálně má seznam.cz nějaký problémy, až přestanou, hodím na web zdrojový data.

Update:Tady to je

Thursday, 20 October 2005

Čtenost

Když tak sleduju flame kolem JXP, napadlo mě, že by mohlo být zajímavé sestavit žebříček blogů podle čtenosti. Myslím, že už někdo kdysi dal dohromady nejaktivnější bloggery, to by mohlo být podobné. Top 10 nejčtenějších zápisů, top 10 nejčtenějších bloggerů... Samozřejmě by se musely počítat jen blogy na které se musí kliknout, u těch mikrozápisů je hodnota čtenosti pochybná. Nechcete se toho někdo ujmout? Nějakým skriptíkem by to urřitě šlo zautomatizovat, ne?

Sunday, 2 October 2005

Anketa

Napadla mne anketa na téma "Jakou www stránku si denně otevřete jako první?", s možnostmi www.abclinuxu.cz, www.abclinuxu.cz/blog, www.root.cz, www.zive.cz, www.seznam.cz, www.google.com, www.idnes.cz, jinou. Nevynechal jsem nejakou významnou www? Díky.

Saturday, 10 September 2005

Diakritika a slovenština na abclinuxu.cz

Při pročítání diskuze na abclinuxu.cz mi vždycky připadalo, že příspěvky ve slovenštině jsou daleko častěji psány bez diakritiky (Nic proti slovenštině, ale bez háčků a čárek se mi čte daleko hůř). A tak jsem se rozhodl exaktně ověřit, jestli je to tak.

A výsledek je takový:

58,2 % příspěvků je psáno s diakritikou, naopak bez diakritiky je jich 39,5 %. Zbývající 2,3 % jsou příspěvky bez textového obsahu, tj. smajlíci, čísla apod.

Česky je napsáno 80,1 % zápisů, slovensky 15,5 %, u zbývajících 4,4 % nelze rozpoznat použitý jazyk.

Jedna třetina (33,0 %) česky psaných zápisů neobsahuje háčky, u slovenštiny jsou to naopak téměř tři čtvrtiny (73,1 %) - z toho vyplývá jednoznačný závěr: Slováci (na abclinuxu.cz) kašlou na diakritiku více než Češi.

graf

Postup:

Využil jsem toho, že diskuze je přístupná přes rozhraní news. Programem slrn-pull jsem stáhnul na disk posledních 10 000 příspěvků. Základní rozdělení na příspěvky s diakritikou a bez diakritiky jsem provedl na základě hlavičky Content-type (tj. ascii/ISO-8859-2) (tj. počítá se jen tělo příspěvku, nikoliv subject; to je logické, protože je jistě spousta případů, kdy bezháčkový člověk odpoví na příspěvek s háčkovaným subjectem). Při té příležitosti jsem z příspěvků odstranil patičky abclinuxu (linky na diskuzi):

#!/bin/bash
adresarcil="/home/hajma/tmp/recode"
adresarzdroj="/var/spool/slrnpull/news/gmane/user-groups/linux/czech"
for soubor in $(ls $adresarzdroj)
do
cat $adresarzdroj/$soubor | formail -x Content-Type | grep us-ascii
if [ $? -eq 0 ]
then
cat $adresarzdroj/$soubor | formail -I "" | sed -r /"^Zobrazit diskusi: http:\/\/www.abclinuxu.cz\/forum\/show\/"\|"^Zobrazit komentar: http:\/\
/www.abclinuxu.cz\/forum\/show\/"/d > $adresarcil/ascii/$soubor
else
cat $adresarzdroj/$soubor | formail -x Content-Type | grep ISO-8859-2
if [ $? -eq 0 ]
then
cat $adresarzdroj/$soubor | formail -I "" | sed -r /"^Zobrazit diskusi: http:\/\/www.abclinuxu.cz\/forum\/show\/"\|"^Zobrazit komentar: http:\
/\/www.abclinuxu.cz\/forum\/show\/"/d | recode l2/qp..l2 > $adresarcil/iso/$soubor
fi
fi
done

Vlastní metoda rozdělení podle jazyka byla jednoduchá: pokud příspěvek obsahuje více českých slov, je český a vice versa.

Pro svůj účel jsem využil český a slovenský slovník MySpell, které jsem ale nejprve musel zbavit pomocných znaků a převést na malá písmena:

#!/bin/bash
adresarcil="/home/hajma/tmp/recode"
adresarzdroj="/usr/share/dict/ooo/"
cat $adresarzdroj/cs_CZ.dic | sed -e s@"\/.*$"@@g | tr '[:upper:]' '[:lower:]' | sort | uniq > $adresarcil/cz.txt
cat $adresarzdroj/sk_SK.dic | sed -e s@"\/.*$"@@g | tr '[:upper:]' '[:lower:]' | sort | uniq > $adresarcil/sk.txt

Z českého slovníku jsem ještě ručně odstranil slovo "a".

Z obou souborů jsem dále odstranil slova, která se vyskytují i ve druhém jazyce:

#!/bin/bash
adresar="/home/hajma/tmp/recode"
for slovo in $(cat $adresar/cz.txt)
do
grep -wq $slovo $adresar/sk.txt
if [ $? -eq 1 ]
then
echo $slovo >> $adresar/cisteceskaslova.txt
fi
done
for slovo in $(cat $adresar/sk.txt)
do
grep -wq $slovo $adresar/cz.txt
if [ $? -eq 1 ]
then
echo $slovo >> $adresar/cisteslovenskaslova.txt
fi
done

Potom jsem bral soubor po souboru, odstranil z nich cokoliv, co nebylo písmeno (díky, Yeti) a vyhledával jednotlivá slova v českém a slovenském slovníku.

#!/bin/bash
adresar="/home/hajma/tmp/recode/iso"
for soubor in $(ls $adresar)
do
cz=0
sk=0
for slovo in $(cat $adresar/$soubor | sed 's/[^[:alpha:]]\+/\n/g' | sed 's/^[ \t]*//;s/[ \t]*$//' | sed '/^
$/d' | tr '[:upper:]' '[:lower:]')
do
#echo $slovo
grep -wq -e $slovo /home/hajma/tmp/recode/cisteceskaslova.txt
if [ $? -eq 0 ]
then
cz=$((cz+1))
fi
grep -wq -e $slovo /home/hajma/tmp/recode/cisteslovenskaslova.txt
if [ $? -eq 0 ]
then
sk=$((sk+1))
fi
done
if [ $cz -gt $sk ]
then
cp $adresar/$soubor /home/hajma/tmp/recode/diacz
elif [ $cz -lt $sk ]
then
cp $adresar/$soubor /home/hajma/tmp/recode/diask
elif [ $cz -eq 0 ]
then
cp $adresar/$soubor /home/hajma/tmp/recode/dianeznamo
else
cp $adresar/$soubor /home/hajma/tmp/recode/diaczsk
fi
done

Update: Zapomněl jsem doplnit, že podobně se to udělá i pro příspěvky bez diakritiky (převod slovníků na bezháčkové probíhá pomocí recode takto:
cat $adresarcil/cz.txt | recode -f l2..flat | sort | uniq > czbezhacku.txt

Thursday, 2 June 2005

Yeti do výroby

http://www.novinky.cz/05/77/68.html

Monday, 3 January 2005

Jenom takovej malej titulek

Malej článeček, nic moc velkýho, prostě jenom testík.