Iedereen heeft straks zijn eigen PRISM

Ooit verkondigde John Battelle in zijn boek “The Search: How Google And Its Rivals Rewrote The Rules Of Business And Transformed Our Culture” dat zoekmachine Google niets anders was een “database of intentions”. Aan de hand van het zoek-en klikgedrag van gebruikers kreeg Google namelijk inzicht in de intenties van haar gebruikers. Google Trends was het ultieme bewijs van dit statement. Zo kon Google Flu Trends bijvoorbeeld eerder voorspellen waar de griep uitbrak dan officiële instanties.

In het artikel On Small, Intimate Data voegt Battelle er nog aan toe dat het gaat om zogenaamde “small data”. Het gaat om kleine data die van betekenis zijn voor het individu. Intieme data die een geheel eigen verhaal vertellen: “To me, small means limited, intimate, and actionable by individuals. […] It’s intimate in that it’s data that matters a lot to each of us, and that we share with much the same kind of social parameters that might constrain a story at an intimate dinner gathering, or a presentation at a business meeting.”

Hoe intiem deze data daadwerkelijk is, legt een inlichtingenofficier uit aan de krant The Washington Post. Hij zegt over PRISM het volgende: “They quite literally can watch your ideas form as you type.” Dit is de Heilige Graal voor ieder bedrijf. Welke marketeer wil niet de mogelijkheid hebben om de consument het laatste zetje te geven wanneer uit de data blijkt dat een consument twijfelt over de aanschaf van zijn produkt? Welke bank wil zijn klant niet waarschuwen bij de aanschaf van een artikel, wanneer de data voorspelt dat de klant door de aankoop zichzelf in de nabije toekomst financieel in de nesten werkt. En welke school wil geen inzicht in het gedrag van scholieren om bijvoorbeeld digitaal pesten tegen te gaan? Allemaal vragen waar een passende Big Data strategie antwoord op geeft.

De technologie achter PRISM

PRISM is gebaseerd op de open-source database Accumulo van The Apache Software Foundation. Aan het eind van 2007 begon de NSA hier aan te werken. Oorspronkelijk heette het produkt Cloudbase. Accumulo is gebouwd op het software raamwerk Apache Hadoop waarmee applicaties petabytes aan ongestructureerde en gestructureerde data in een cloudomgeving op standaard hardware kunnen verwerken. Het is te vergelijken met Google’s BigTable opslagsysteem.

Hetgeen de Accumulo versie van de NSA zo bijzonder maakt, is dat het gebouwd is met privacy in het achterhoofd. Elke individueel stukje data is op cel niveau te beveiligen zodat alleen een geautoriseerde gebruiker de desbetreffende informatie in kan zien.

Hoe werkt PRISM?

Data, data en nog eens data: we bevinden ons in een uitdijend data-universum, vol met onontdekte verbanden. Dat is niet abstract en algemeen, maar specifiek en heel concreet, want elk nieuw inzicht kan het begin zijn van een goudmijn. De NSA is erin geslaagd om meerdere van deze goudmijnen met elkaar te combineren. Microsoft, Yahoo, Google, Facebook, PalTalk, YouTube, Skype, AOL en Apple bieden alleen een achterdeur waardoor de NSA kan binnenkomen. Twitter is niet in deze lijst opgenomen, dankzij de firehose staat de voordeur immers altijd wagenwijd open!

prism

Moderne datastroomsoftware, zoals NSA’s Accumulo, maakt het mogelijk om realtime complexe verbanden te monitoren in situaties die de mogelijkheden van relationele databases en traditionele analysemethoden te boven gaan. “Net zoals de telescoop ons in staat stelde om het heelal te doorgronden en de microscoop ons inzicht bood in de wereld van de ziektekiemen, zo zullen de nieuwe technieken voor het verzamelen en analyseren van enorme hoeveelheden gegevens ons manieren bieden om een wereld te doorzien die we nu nog maar nauwelijks begrijpen.” (citaat afkomstig uit het boek De Big Data Revolutie). Grote revoluties binnen de wetenschap beginnen vaak met een doorbraak op het gebied van meten. We staan nu aan het het begin van een nieuw tijdperk, dat te vergelijken is met de start van de moderne wetenschap in de 17e eeuw. Hierbij geldt wederom, meten is het nieuwe weten. Alleen de vraagstelling verandert. Causaliteit maakt plaats voor correlatie. Het is niet langer nodig om te weten waaróm iets gebeurt, maar juist wát er gebeurt. En in het PRISM-geval van terrorisme wánneer iets zal gebeuren. Of zoals data-mining expert Gregory Piatetsky-Shapiro het in een interview met Slate verwoordt: “You don’t necessarily need the conversation if you have the network.”Het is The End of Theory zoals Chris Anderson reeds in 2008 voor Wired magazine voorspelde. Big Data maakt de wetenschappelijke methode overbodig.

Conclusie

In 2009, zei Google’s hoofd econoom Hal Varian het volgende: “The sexy job in the next ten years will be statisticians.” Hetzelfde punt werd in 2012 nog eens gemaakt in het artikel “Data Scientist: The Sexiest Job of the 21st Century”. Nu hebben we de nerds nog nodig om soep te maken van al deze data. De verwachting is echter dat in de nabije toekomst iedereen de beschikking heeft over zijn eigen PRISM-achtige technologie. Zijn eigen toolset om data te analyseren en te interpreteren.

theanalyticsbigbang

Deze ontwikkeling zien we nu al gebeuren, denk maar aan de slimme energiemeters die jouw energieverbruik inzichtelijk maken. De televisie kijkt terug en zelfs medicijnen houden je in de gaten. Of aan Watson, de supercomputer van IBM. Deze wordt nu nog ingezet voor het onderzoeken van kanker, maar al heel snel zal deze kunstmatige intelligentie via een Siri-achtige applicatie voor een ieder ontsloten worden. In het artikel Predictive analytics is shaping the modern life wordt bovenstaand punt ook gemaakt: “In the future, analytics would become ubiquitious to the point whereby individuals use analytics to make everyday decisions. […] In the future, predictive policing could help governments preempt many crimes, and even help the daily consumer anticipatory analytics such as making it nearly impossible to crash a car, or avoiding a burnt meal. The possibilities are endless.”

We staan nog maar aan het begin. PRISM is slechts het topje van de ijsberg. De mogelijkheden zijn inderdaad oneindig.