Filip Cherecheș-Toșa
Follower of Jesus, husband, father of three, builder

Site crawling. Legalități. Probleme?

Se practică, tot mai mult, agregatoarele de informații, uneori până la absurd.

De ce e agregarea asta un model bun?
Pentru că informația e multă și e fragmentată pe n site-uri. Pentru că vrem rezultate relevante, instant și nu mai avem timp să căutăm acul în carul cu fân. Așa că apelăm la servicii de agregare.

Site crawling în România se face tot mai mult.
Știu de [vertimo.ro][2], în imobiliare. Știu de alte câteva la care se lucrează. Nu-mi aduc acum aminte de altele, așa că dacă știi, lasă te rog un link.

[2]: http://www.vertimo.ro/ “”

Atunci când iei conținut de pe alte site-uri, e imperativ să ai un răspuns clar și bine argumentat la următoarea întrebare:
E legal ceea ce fac?

Majoritatea site-urilor au drept de copyright asupra conținutului pe care-l publică. Cele mai multe nu îți permit să le duplici conținutul altundeva decât, eventual, cu acordul lor scris.

Dar poate nu te bagă-n seama și/sau nu se obosesc să-ți dea o aprobare scrisă că e OK să le preiei datele.

Așa că iei, frumos, [legea dreptului de autor][3] și începi s-o studiezi, cu atenție deosebită pe [secțiunea de limite/excepții][4]. Descoperi că ar fi modalități legale.

[3]: http://www.legi-internet.ro/index.php/Legea_dreptului_de_autor/63/0/ “” [4]: http://www.legi-internet.ro/index.php/Legea_dreptului_de_autor/63/0/#138 “”

Două scenarii, o dilemă

Scenariu 1:
Să presupunem că [Alex][5] vrea să-și cumpere un BlackBerry second-hand, [fiind nemulțumit][6] de noul său iPhone. Intră pe câteva site-uri de anunțuri pe care le cunoaște și găsește 5 oferte OK. Îi contactează pe vânzători, alege o ofertă și peste câteva ore se-ntâlnește cu vânzătorul, într-o cafenea.
Încântat de noul său BlackBerry, Alex decide să scrie un post pe blog și să-i promoveze pe ceilalți 4 vânzători de BlackBerry. Nu de-alta, cu siguranță sunt și alții dezamăgiți de iPhone, interesați să-și ia altceva! Zis și făcut, apare postul, cu link-uri directe către anunțurile în cauză.

[5]: http://alexbrie.net/ “” [6]: http://alexbrie.net/1856/am-iphone/ “”

Scenariu 2:
Krauler, un engine de site-crawling dezvoltat in-house, intră pe câteva site-uri de anunțuri, din dorința de-a le inspecta conținutul și a găsi noutățile. Krauler găsește repede (hopefully :p) ceea ce caută și, fiind încântat de descoperiri, decide să le facă un bine și altora care ar căuta aceleași lucruri.
Astfel, Krauler publică pe site-ul său link-uri către anunțurile pe care le-a găsit prin peregrinările sale. Eventual, dacă sunt multe, le mai și aranjează, elimină duplicatele nenecesare etc. Periaj profesional!

Și dilema:
La nivel de bază, esențial, există diferențe de comportament între Alex și Krauler?

Dincolo de găurile din scenarii… de ce comportamentul lui Alex e acceptat și dorit de către cei care dețin site-uri, pe când cel al lui Krauler e considerat rău-famat și, uneori, interzis?

Adică dacă datele sunt accesibile public și disponibile vederii umane, de ce nu ar fi disponibile și vederii artificiale?

P.S. Adevărul este că Alex e încântat de iPhone… încă.