Programování

„Vyhledávání Google na steroidech“ přináší na světlo temný web

Vládní agentura, která nám přinesla internet, nyní vyvinula nový výkonný vyhledávač, který osvětluje obsah takzvaného hlubokého webu.

Agentura Defense Advanced Research Projects Agency (DARPA) zahájila práce na vyhledávacím modulu Memex Deep Web Search Engine před rokem a tento týden představila své nástroje pro časopis Scientific American a „60 Minutes“.

Memex, který vyvíjí 17 různých týmů dodavatelů, si klade za cíl vytvořit lepší mapu internetového obsahu a odhalit vzorce v online datech, které by mohly pomoci policistům a dalším. Zatímco první pokusy se zaměřily na mapování pohybů obchodníků s lidmi, tato technologie by mohla být jednoho dne použita na vyšetřovací úsilí, jako je boj proti terorismu, pohřešované osoby, reakce na nemoci a pomoc při katastrofách.

Dan Kaufman, ředitel kanceláře pro inovace informací ve společnosti DARPA, říká, že Memex je o tom, aby bylo vidět neviditelné. „Internet je mnohem, mnohem větší, než si lidé myslí,“ řekl programový manažer DARPA Chris White „60 minut“. „Podle některých odhadů nám Google, Microsoft Bing a Yahoo poskytují přístup pouze k přibližně 5 procentům obsahu na webu.“

Google a Bing produkují výsledky na základě popularity a hodnocení, ale Memex prohledává obsah typicky ignorovaný komerčními vyhledávacími stroji, jako jsou nestrukturovaná data, nepřipojený obsah, dočasné stránky, které jsou odstraněny dříve, než je mohou komerční vyhledávače procházet, a chatovací fóra. Pravidelné vyhledávače ignorují tato hluboká webová data, protože weboví inzerenti - kde společnosti, které vydělávají na prohlížečích - o ně nemají zájem.

Memex také automatizuje mechanismus procházení temným nebo anonymním webem, kde zločinci podnikají. Tyto stránky se skrytými službami, které jsou přístupné pouze prostřednictvím anonymizačního prohlížeče TOR, obvykle fungují pod radarem donucovacích orgánů prodávajících nelegální drogy a další pašování. Tam, kde se kdysi myslelo, že aktivita temného webu sestává z přibližně 1000 stránek, White řekl Scientific American, že by mohlo existovat mezi 30 000 a 40 000 temných webových stránek.

Doposud bylo těžké dívat se na tyto stránky jakýmkoli systémovým způsobem. Ale Memex - který Manhattan DA Cyrus Vance Jr. nazývá „Vyhledávání Google na steroidech“ - nejen indexuje jejich obsah, ale také jej analyzuje, aby odhalil skryté vztahy, které by mohly být užitečné pro vymáhání práva.

Vyhledávací nástroje DARPA byly zavedeny pro výběr donucovacích orgánů v loňském roce, včetně nové manhattanské jednotky pro reakci na obchodování s lidmi. Memex se nyní používá v každém případu obchodování s lidmi, který sleduje, a hrál roli při generování nejméně 20 vyšetřování obchodování s lidmi. Přeplňovaný webový prohledávač dokáže identifikovat vztahy mezi různými částmi dat a vytváří datové mapy, které pomáhají vyšetřovatelům detekovat vzory.

V ukázce „60 minut“ White ukázal, jak je Memex schopen sledovat pohyb obchodníků na základě údajů souvisejících s online reklamami na sex. „Někdy je to funkce IP adresy, ale někdy je to funkce telefonního čísla nebo adresy v reklamě nebo geolokace zařízení, které reklamu zveřejnilo,“ řekl White. „Někdy existují i ​​jiné artefakty, které přispívají k umístění.“

White zdůraznil, že Memex se k získání informací neuchýlí k hackerství. „Pokud je něco chráněno heslem, nejde o veřejný obsah a Memex to neprohledává,“ řekl Scientific American. „Nechtěli jsme tuto práci zbytečně zatemňovat přetahováním přízraku snoopingu a dohledu“ - dotek po odhalení NSA Edwarda Snowdena.

Memex dostal své jméno (kombinace „paměti“ a „indexu“) a inspiraci z hypotetického zařízení popsaného Vannevarem Bushem v roce 1945, které předznamenalo vynález počítačů, internetu a dalších významných IT pokroků příštích 70 let. Nyní se zdá, že DARPA a Memex nás přiblíží o krok blíže k futuristickému policejnímu oddělení Philipa Dicka popsaného v „Minority Report“.

Nové kolo testování, které má začít za několik týdnů, bude zahrnovat federální a okresní státní zástupce, regionální a národní donucovací orgány a několik nevládních organizací. Podle zprávy Scientific American si klade za cíl „otestovat nové možnosti vyhledávání obrázků, které mohou analyzovat fotografie, i když jsou části, které by mohly pomoci vyšetřovatelům - včetně tváří obchodníků nebo televizní obrazovky v pozadí - zmateny.“

Vymýšlením lepších způsobů interakce a prezentace informací shromážděných z větší skupiny zdrojů „chceme zlepšit hledání pro všechny. Snadné použití pro neprogramátory je zásadní,“ řekl White.

$config[zx-auto] not found$config[zx-overlay] not found