Kopalnia tajemnic Google Books
by Lukasz Jonak
Zawsze mnie cieszy, kiedy naukowcy społeczni wprowadzają w życie pomysły, które wcześniej zostały wygenerowane przez autorów SF. Najnowsza, opublikowana właśnie w Science (i komentowana tu, tu, tu i tu) analiza treści 3 milionów książek zgromadzonych w bazach Google Books, odsyła bezpośrednio do wydanej w 2006 roku Rainbow’s End Vernora Vingea (tego Vinge’a od “osobliwości technologicznej”).
Zanim do meritum – trzeba Vinge’owi przyznać, że jest bardziej radykalny niż Google. Czy można jakoś przyspieszyć proces skanowania książek? Google skanuje odwracając i fotografując kartki jedna po drugiej. Trwa to dramatycznie długo. Vinge ma inny pomysł: pozbawmy książkę okładek, wrzućmy ją do rozdrabniarki, a produkt jej działania, czyli strumień malutkich skrawków zadrukowanego papieru, przedmuchajmy przez tunel wyłożony od wewnątrz tysiącem małych kamer video podłączonych do mocnego komputera. Wirujące skrawki papieru zostaną wielokrotnie sfotografowane i zdigitalizowane, a odpowiednie algorytmy złożą z nich cyfrowe odpowiedniki stron, dopasowując do siebie w pamięci komputera krawędzie poszatkowanych “płatków”. Fabuła Rainbows End obraca się wokół planów przetworzenia całej zawartości biblioteki UCSD na cyfrową mielonkę.
Tę (według niektórych bohaterów książki) zbrodnię chce popełnić konsorcjum Huertas, rywal Google (które wciąż skanuje strona po stronie). Dodatkowym bonusem, który zdołało sobie wywalczyć Huertas, jest 6-miesięczna wyłączność na wykorzystanie zeskanowanej zawartości. Okazuje się, że wiąże się to z całkiem wymiernymi korzyściami:
So, (…) the Huertas collection will contain almost all human knowledge up to about twenty years ago. All correlated and connected. It’s the reason Huertas is paying the State of California to let him commit this atrocity. Even the first rough compilation could be a gold-mine. From the project start six weeks ago, Huertas International has a six-month monopoly on the Librareome they’re creating. That’s six months with sole access to real insight on the past. There are dozens of questions that such a resource might resolve: who really ended the Intifada? who is behind the London art forgeries? where was the oil money really going in the latter part of the last century? Some answers will only interest obscure historical societies. But some will mean big bucks. And Huertas will have exclusive rights to this oracle for six months.
Ucieszną rzeczą jest nazwa projektu – u Vinge’a “Librareome”, w analizie treści książek zeskanowanych przez Google – “Culturomics” – oba terminy odwołujące się do neoewolucjonizmu (genome – genomics/genetics). Tak, tak, humanistykę robią teraz ludzie z uniwersytetów medycznych, wydziałów biologii i bioinformatyki.
Analiza książek Google sprowadza się w tej chwili do badania (i porównywania) zmian częstości występowania słów i fraz. Z jednej strony to wystarczająco mało, by prowokować sarkastyczne “so what?” wśród sceptyków, z drugiej strony facebookowe ściany zaczynają roić się odnośnikami do wykresów słów, które są z tych czy innych powodów istotne dla użytkowników FB – pokusa żeby sprawdzić to i owo jest zbyt wielka (przy okazji – najnowszą dostępną datą jest rok 2008 a nie defaultowy 2000!).
Ale analiza opublikowana w Science to dopiero początek. Vinge sugeruje w którą stronę pójdzie to dalej. Jeśli do częstości słów dodamy kontekst: metadane o autorach, wydawnictwach, gatunkach książek i miejscach wydania, to wachlarz wniosków do wyciągnięcia dramatycznie się poszerzy. Jednak najważniejszą rzeczą będzie – o czym pisze Vinge – wnioskowanie o relacjach pomiędzy słowami, faktami, postaciami. Odkrywanie nowej wiedzy na podstawie tego, co już zostało zapisane. To nie jest SF, ta technologia już istnieje. Steven Johnson, autor popularnonaukowy, napisał swoją najnowszą książkę Where Good Ideas Come From pomagając sobie tą technologią (przy okazji częściowo odpowiadając na tytułowe pytanie). Mam na myśli macowy program DEVONthink, który jest bazą danych tekstów potrafiącą sugerować użytkownikowi powiązania pomiędzy zgromadzonymi w niej ideami. Tak więc algorytmy nie są problemem, kwestią do rozwiązania jest pewnie moc obliczeniowa potrzebna do analizy ogromnego korpusu tekstów Google. Ale nie zdziwię się, jeśli za jakiś czas kolejne raporty przyniosą rewelacje dotyczące znanych postaci historycznych, wydarzeń czy państw. I wcale też nie będę zdziwiony, jeśli okaże się, że któryś z trzynastu autorów artykułu w Science czytał kiedyś Vinge’a.
like
ps. witamy w blogosferze
dzieki! co do tej blogosfery to jeszcze nie wiem – po prostu na FB mi sie nie zmiescilo
Ciekawy artykuł, ale nie rozumiem w jaki sposób nazwy odwołują się do neoewolucjonizmu?
OK, chodzi mi o rodzaj neoewolucjonizmu który tłumaczy dynamikę kultury dynamiką reprezentacji, która z kolei mniej lub bardziej jest modelowana na dynamice genów. Te zacytowane nazwy sugerują jakąś formę “kultur-genetyki”.