Jag har inte själv tidigare uppfattat vilken ofantlig beräkningskapacitet d.v.s. kapacitet till analys av material på internet Google har. Saken klarnade av en slump! Den 14.3.2013 scannade jag in Ole Eklunds bok ”Undret från Kraterön” som pdf men där varje uppslag var en bild av sidan.
Av en slump råkade jag söka något på nätet relaterat till min blogg och jag reagerade då på att jag stötte på text jag visste att jag inte hade skrivit men som ändå var bekant. Det visade sig att träffarna kom från ”Undret från Kraterön” men jag hade ju aldrig lagt ut boken i textformat … hur var det möjligt?
Förklaringen till mysteriet torde vara att Google har indexerat min blog ”Reflex och Spegling”, detta är förväntat och naturligtvis önskvärt. Då Googles vebbrobot träffade på pdf-filerna för ”Undret från Kraterön” försökte roboten tolka filen som text och misslyckades. Filen flaggades antagligen då som varande av typen pdf men inte text och skickades vidare till följande skede. Filen matades in i ett program som försökte tolka bilderna som text, resultatet var tydligen ok d.v.s. de råa bilderna var tillräckligt bra för att kunna läsas av Googles OCR program. Av pdf filen skapades nu en ny fil av typen HTML som består av den text OCR programmet hade fått fram vid analys.
Resultatet av analysen skickades vidare till Googles program för indexering av vebbsidor så att man i fortsättningen kan söka på innehållet …
http://www.wired.com/wiredenterprise/2012/01/google-finland/
Vad betyder ovanstående intressanta analysprocess?
För mig var resultatet oväntat men trevligt. Jag försökte för ett antal år sedan läsa in boken som text i datorn genom att scanna in den och köra den igenom OCR. Problemet var att mängden fel var ofantligt eftersom programmet för optisk igenkänning av tecken (OCR) var alltför dåligt. Jag uppfattade att arbetet med att felsöka den inscannade texten skulle ha varit nästan lika stort som att skriva in texten för hand … no way! Google har nu gjort arbetet för mig och jag kan ge mig på texten så att språket kan moderniseras till att motsvara dagens språk. Det kommer eventuellt ut en ny upplaga av Ole Eklunds bok så småningom om jag har tid att jobba med boken.
Oginalet kan ses via länken nedan:
Klicka för att komma åt undretfrc3a5nkraterc3b6n19_20.pdf
Den nya versionen automatiskt tolkad som text av Google hittar man här:
Otrevligare slutledningar
Det faktum att Google via sina vebbrobotar hittar pdf-filer i bildform som den förstår att tolka som text visar automatiskt att motsvarande processer sannolikt implementeras för tolkning av i princip alla bilder robotarna hittar på nätet. Ansikten på bilderna kan i princip enkelt matchas mot en databas av kända ansikten eventuellt en databas som Google kan köpa access till från t.ex. FaceBook. En betydande del av ansiktena kan sedan taggas så att man vet vem bilden föreställer. Följande steg är att försöka matcha bakgrunden i form av byggnader, reklamer, vägskyltar … vilket igen kan ge möjlighet att tagga platsen där bilden är tagen.
Min uppfattning är att man helt enkelt idag måste utgå från att man hela tiden i princip kan spåras via
- Mobilnätet kan med några tiotals meters noggrannhet positionsbestämma mobilen. Denna information är inte fritt tillgänglig på nätet. Myndigheterna och räddningsväsendet har dock tillgång till denna information om t.ex. ett barn eller en åldring plötsligt försvinner och man antar att personen bär på en telefon.
- Har man en smarttelefon och låter Google hålla reda på positionen via GPS finns all positionsinformation naturligtvis tillgänglig för Google …
- Bilder som utomstående tar, se ovan, tillåter spårning i efterhand.
- Sociala media kan ge input till spårning i efterhand.
Personligen ser jag inget problem i det ovanstående, jag har inget att dölja, men det kan vara bra att vara medveten om att det antagligen inte går att anta att man är anonym någonstans trots att man själv inte känner någon i omgivningen 😉 !
Kommentera