O BitTorrentu, pirátech a Kimovi

BitTorrent - jedna z největších a nejproslulejších sítí pro sdílení linuxových distribucí. A příležitostně také filmů, hudby, programů, her, aplikací a jiných produktů... Poslední dobou se o ní mluví čím dál více. Proto nás napadla otázka - která země je největším pirátem? Která země nejvíce stahuje a sdílí data přes torrenty? A má na míru sdílení filmů a seriálů nějaký vliv dostupnost služeb podobných Netflixu?
 
Abychom si na tyto otázky mohli odpovědět, je důležité si říci pár věcí o BitTorrentu. Jedná se o protokol pro sdílení dat přímo mezi uživateli, bez nutnosti putování dat přes centrální prvek. Myšlenka je to dobrá, ovšem i při tomto koncept naráží na jeden problém - jak se dozví jednotliví uživatelé o tom, kdo má jaký soubor k dispozici a od koho můžou stahovat? Nutností je zprostředkovat komunikaci mezi klienty - aby každý věděl, kde hledat nejnovější díl Game of Thrones. V této oblasti prošel BitTorrent v posledních letech zajímavým vývojem.
 
Ještě před pár lety bylo nutné pro zjištění peerů (uživatelů BitTorrentu, kteří vlastní požadovaný soubor a jsou ochotni ho sdílet) kontaktovat tracker (server, který uchovává informace o torrentu, včetně informací o uživatelích, kteří jej sdílí). Ten mu odpovědí poslal seznam IP adres, ke kterým se můžeme připojit. A už nic nebránilo sdílení "napřímo".
 
Trackery mají své nedostatky. Jedná se o centralizované prvky, které mohou být odstaveny - vládou, konkurencí, provozovatelem. Odpovědí na tento "nedostatek" bylo vytvoření nové verze protokolu bez použití centrálního prvku. Jedná se o Distributed Hash Table (DHT), což je pouze složitější název pro tabulku. Tato tabulka si pamatuje dvojice klíč a hodnota - je to jednoduché úložiště. Pokud z ní něco chceme, stačí poslat dotaz s klíčem, odpovědí je hodnota uložená u klíče. "Distributed" v názvu znamená, že tabulka není uložena na jednom centrálním místě, ale rozkouskována mezi uživatele. Každý uživatel tedy může vlastnit kousek této velké tabulky. Tím je dosažena decentralizace celého protokolu - tabulka obsahuje informace o uživatelích.
 

Co a jak jsme sledovali?

V našem projektu jsme se zaměřili na nejrozšířenější implementace DHT protokolu jménem Mainline. Každých pět minut jsme prozkoumali peery pro několik torrentů a zapsali si jejich výskyt do databáze - po dobu jednoho měsíce. Nezkoumali jsme všechny dostupné protokoly BitTorrentu, takže zde uváděná čísla nelze brát absolutně. Je na nich ovšem velmi dobře vidět, jaké panují poměry mezi jednotlivými zeměmi.
 
Zaměřili jsme se na torrenty nejznámějších a nejsdílenějších filmů a seriálů. Mezi filmy jsou tituly jako Guardians of the Galaxy, The Interview, Annabelle, Maze Runner nebo Horrible Bosses 2, mezi seriály potom Person of Interest, American Horror story, Scorpion, The Flash nebo Sleepy Hollow.
 
Ve srovnání zemí pracujeme nejen s peery těchto pirátů, ale se všemi IP adresami, které jsme objevili při procházení DHT. Protokol není navržen s ohledem na geografii, rozložení jednotlivých prvků je tedy rovnoměrné.
 

Odkud pochází piráti?

Začneme hned z ostra - mapou, která zobrazuje počet torrentových klientů v jednotlivých zemích.

Buďme fér

Ačkoliv bychom se mohli zastavit zde a prohlásit Rusko absolutním vítězem pomyslné pirátské soutěže, zamysleme se nad populací uživatelů internetu v jednotlivých zemích. Opravdu nám absolutní počet torrentových klientů říká, že je Rusko největším pirátem? Je jasné, že čím má stát více uživatelů internetu, bude mít i více pirátů.
 
Pojďme se podívat na internetovou populaci zemí. Data jsme si vypůjčili ze stránek https://www.internetworldstats.com/.

Když si srovnáme tyto dvě mapy, je zde vidět malá podobnost. Abychom to celé líp prozkoumali, pojďme si dát tyto dvě metriky dohromady, do jedné mapy, ve které zobrazíme počet torrentových klientů na uživatele internetu. Pro lepší orientaci uvádíme počet torrentů ne na jednoho uživatele internetu, ale rovnou na jeden tisíc uživatelů. Jen abychom se zbavili zbytečných nul. Zároveň jsme vynechali všechny země, které mají internetovou populaci pod jeden milión uživatelů pro lepší přehlednost.

Konečně můžeme srovnat míru pirátství jednotlivých zemích aspoň trošku objektivně! Nepřekvapivě je mezi prvními Rusko a v podstatě celá východní Evropa. Zajímavé je umístění Švédska mezi více pirátské země, přestože má pověst velmi vyspělé země. A že Kanada bude více pirátit než USA jsme také nečekali.
 

Jak dlouho se stahují a sdílí torrenty?

Když už máme všechna data na jedné hromadě, zkusme si odpovědět na další otázku. Jak dlouho jsou aktivní jednotliví klienti? V databázi jsme si při sledování torrentů ukládali také informaci o prvním a posledním výskytu klienta. A tak jsme také schopni získat průměrný čas výskytu jednoho klienta: 21 hodin, 48 minut a 8 sekund. Až na to, že tento výsledek není správný. Tedy aspoň ne úplně. Problémem je zde slovíčko "průměrný" - v našem případě je velmi zavádějící, neboť existuje spousta klientů, kteří byli aktivní celý měsíc a zároveň spousta klientů, kteří byli aktivní pouze nejkratší možný sledovaný interval - 5 minut (viz úvodní odstavec). Že je něco špatně nám napoví směrodatná odchylka časů, která je přes 3 dny. Je to obdobná situace jako s průměrným platem u nás - průměr táhnou nahoru nejlépe placení pracovníci, kterých není mnoho. Stejně jako u platu můžeme i zde použít medián - ten nám řekne, jaký je nejčastější interval aktivity torrentu. Celých 49 % klientů bylo aktivních méně než 5 minut.
 

Snižuje Netflix pirátství?

Zajímavou otázkou je v kontextu torrentů dostupnost služeb podobných Netflixu. Mají nějaký vliv na míru pirátství v zemích, kde jsou a kde nejsou dostupné? V honbě za odpovědí na tuto záludnou otázku jsme si rozdělili světa na 2 regiony - tam, kde je a tam kde není dostupný Netflix či jemu podobná služba. U těchto dvou regionů jsme následně sečetli uživatele internetu a torrentové klienty.
 
Region s dostupným Netflixem má celkem 635 358 750 uživatelů internetu a 9 222 355 torrentových klientů. To je 14,52 torrentových klientů na jeden tisíc uživatelů internetu. 
 
Region bez služeb typu Netflix má celkem 2 374 652 653 uživatelů internetu a 32 612 120 torrentových klientů, což je 13,73 torrentových klientů na jeden tisíc uživatelů internetu. 
 
Země, kde jsou dostupné služby pro streaming filmů a seriálů mají mírně vyšší počet torrentových klientů na uživatele internetu. Čímž se naše hypotéza, kvůli které jsme dělali tento projekt, nepotvrdila.
 

Oblíbenost torrentu filmu The Interview

Na závěr si trochu odpočiňme. Podíváme se na počty klientů torrentu filmu The Interview v jednotlivých zemích.
Je vidět, že tento film hodně zaujal Poláky, Nory, Američany, Rusy... zato Bělorusy a Ukrajince nechává chladnými.
 
Pozorný čtenář si už jistě všiml, že mezi zeměmi, které si stáhly The Interview, je i Korejská lidově demokratická republika s celkem jedním torrentovým klientem. Reálný počet klientů v této zemi ovšem může být mnohem vyšší, jelikož dle posledních informací používá KLDR několik málo proxy serverů pro přístup do širého internetu z důvodu kontroly provozu. Tento proxy se tedy může chovat podobně jako klasický domácí router, který se tváří v internetu jako jeden prvek, ale reálně se za ním skrývá celá rodina. Takže je tady určitá nenulová šance, že si film The Interview stáhnul (nebo to pro něj někdo udělal) sám Kim Čong-un :-)
 

A co vývoj v čase?

Vývoj v čase si ukážeme na filmu Guardians of the Galaxy. Ten jsme začali sledovat několik desítek minut po zveřejnění torrentu, proto si můžeme prohlédnout většinu křivky jeho oblíbenosti.
 
Jasně jsou zde vidět výkyvy dne a noci a také obecný trend oblíbenosti. Pamatujme na to, že jsou časy uváděny dle naší časové zóny.

Slovo závěrem

Udělali jsme si krátký výlet do světa torrentů a uvědomili si, jaké tam panují poměry. Zároveň jsme si ukázali, že i tak známá a používaná věc jako průměr může a často i bývá zavadějící. Proto je nutné si vždy dávat pozor na to, jaká data a jaké závěry nám jsou servírovány a přemýšlet o nich.
 
Nashledanou u dalšího článku se těší Marie Štouračová a Vojtěch Kurka
 
PS: Pokud Vás zajímá technická stránka projektu, podívejte se na blog, který popisuje celou přípravu a provedení sledovaní torrentů: https://datovyanalytik.tumblr.com

O bittorentu, pirátech a Kimovi

Nebyly nalezeny žádné příspěvky.

Přidat nový příspěvek