Kursplan

Dag 01

Översikt över Big Data Business Intelligence för brottsbekämpning Intelligence Analysis

  • Fallstudier från rättsväsendet - Predictive Policing
  • Big Data antagningsgrad i brottsbekämpande myndigheter och hur de anpassar sin framtida verksamhet kring Big Data Predictive Analytics
  • Framväxande teknologilösningar som skottSensorer, övervakningsvideo och sociala medier
  • Att använda Big Data teknologi för att mildra informationsöverflödet
  • Gränssnitt Big Data med Legacy-data
  • Grundläggande förståelse för möjliggörande teknologier inom prediktiv analys
  • Data Integration & Dashboardvisualisering
  • BedrägeriHantering
  • Business Rules och bedrägeridetektion
  • Hotdetektering och profilering
  • Kostnadsnyttoanalys för implementering av Big Data

Introduktion till Big Data

  • Huvuddrag hos Big Data - Volym, Variation, Hastighet och Veracitet.
  • MPP (Massively Parallel Processing) arkitektur
  • Data Warehouses – statisk schema, långsamt utvecklande dataset
  • MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Baserade lösningar - inga villkor på struktur av dataset.
  • Typiskt mönster : HDFS, MapReduce (crunch), hämta från HDFS
  • Apache Spark för strömbehandling
  • Batch-suited för analytiska/non-interaktiva
  • Volym : CEP-strömmande data
  • Typiska val - CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc)
  • Mindre produktionsklara - Storm/S4
  • NoSQL Databases - (kolumnar och nyckel-värde): Bäst lämpad som analytisk adjunct till datalager/databas

NoSQL lösningar

  • KV-butik - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV-butik - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV-butik (hierarkisk) - GT.m, Cache
  • KV-butik (ordnad) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV-cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Bred kolumnar butik - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Datavarianter: Introduktion till Data Cleaning nummer i Big Data

  • RDBMS – statisk struktur/schema, främjar inte en agil, utforskande miljö.
  • NoSQL – semi-strukturerad, tillräcklig struktur för att lagra data utan exakt schema innan lagring av data
  • Data rengöringsproblem

Hadoop

  • När ska Hadoop väljas?
  • STRUKTURERAD - Enterprise datalager/databaser kan lagra massiv data (till en kostnad) men ålägger struktur (inte bra för aktiv utforskning)
  • SEMI STRUKTURERAD data - svårt att utföra med traditionella lösningar (DW/DB)
  • Datavaroing = STOR ansträngning och statisk även efter implementation
  • För variation och volym av data, crunchade på commodity-hårdvara - HADOOP
  • Commodity H/W behövs för att skapa en Hadoop kluster

Introduktion till Map Reduce /HDFS

  • MapReduce - distribuera beräkningar över flera servrar
  • HDFS - göra data tillgänglig lokalt för beräkningsprocessen (med redundans)
  • Data - kan vara ostrukturerad/schema-lös (till skillnad från RDBMS)
  • Utvecklarens ansvar att få data att ge mening
  • Programming MapReduce = arbete med Java (pros/cons), manuellt ladda data i HDFS

Dag 02

Big Data Ekosystemet - Bygga Big Data ETL (Extract, Transform, Load) - Vilka Big Data verktyg ska användas och när?

  • Hadoop vs. Andra NoSQL lösningar
  • För interaktiv, slumpmässig åtkomst till data
  • Hbase (kolumnorienterad databas) ovanpå Hadoop
  • Slumpar åtkomst till data men begränsningar ålagda (max 1 PB)
  • Inte bra för ad-hoc-analyser, bra för loggning, räkning, tidsserier
  • Sqoop - Importera från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
  • Flume - Streama data (t.ex. loggdata) till HDFS

Big Data Management System

  • Rörliga delar, beräkningsnoder startar/felet :ZooKeeper - För konfiguration/koordination/naming tjänster
  • Complex pipeline/workflow: Oozie - hantera arbetsflöden, beroenden, prydnadskedja
  • Distribuera, konfigurera, klusterhantering, uppgradera osv (sysadmin): Ambari
  • I Cloud: Whirr

Predictive Analytics -- Grundläggande tekniker och Machine Learning baserad Business intelligens

  • Introduktion till Machine Learning
  • Lära sig klassificeringstekniker
  • Bayesiansk prediktion - förbereda en träningsfil
  • Support Vector Machine
  • KNN p-Tree Algebra & vertikal gruvdrift
  • Neural Networks
  • Big Data stort variabelproblem - Random forest (RF)
  • Big Data Automationsproblem - Multi-model ensemble RF
  • Automation genom Soft10-M
  • Textanalysverktyg - Treeminer
  • Agile lärande
  • Agentbaserat lärande
  • Distribuerat lärande
  • Introduktion till verktyg med öppen källkod för prediktiv analys: R, Python, Rapidminer, Mahut

Predictive Analytics Ekosystem och dess tillämpning i Criminal Intelligence Analysis

  • Teknik och den utredande processen
  • Insiktsanalytik
  • Visualiseringsanalytik
  • Strukturerad prediktiv analys
  • Ostrukturerad prediktiv analys
  • Hot/bedrägeristar/vendorprofilering
  • Rekommendationsmotor
  • Mönsterigenkänning
  • Regel/scenarieforskning - fel, bedrägeri, optimering
  • Upptäckte grundorsaker
  • Sentimentanalys
  • CRM-analys
  • Nätverksanalys
  • Textanalys för att få insikter från transkriptioner, vittnesmål, internetprat, etc.
  • Teknikassistans för granskning
  • Bedrägeri analytik
  • Analytik i realtid

Dag 03

Real Time och Scalable Analytics Over Hadoop

  • Varför vanliga analytiska algoritmer misslyckas i Hadoop/HDFS
  • Apache Hama- för Bulk Synchronous distribuerad databehandling
  • Apache SPARK- för klusterberäkning och realtidsanalytik
  • CMU Graphics Lab2- Grafbaserat asynkront tillvägagångssätt för distribuerad databehandling
  • KNN p - Algebra-baserat tillvägagångssätt från Treeminer för minskad hårdvarukostnad för drift

Verktyg för eDiscovery och Forensics

  • eDiscovery över Big Data vs. Legacy-data - en jämförelse av kostnad och prestanda
  • Prediktiv kodning och teknikassisterad granskning (TAR)
  • Live-demo av vMiner för att förstå hur TAR möjliggör snabbare upptäckter
  • Snabbare indexering genom HDFS - datans hastighet
  • NLP (Natural Language processing) - open source-produkter och tekniker
  • eDiscovery på främmande språk - teknologi för bearbetning av främmande språk

Big Data BI för Cyber Security – Få en 360-gradersvy, snabb datainsamling och hotidentifiering

  • Förstå grunderna i säkerhetsanalys - attackyta, säkerhetsfelkonfiguration, värdskydd
  • Nätverksinfrastruktur / Stora datapipe / Respons ETL för realtidsanalys
  • Prescriptive vs predictive - Fast regelbaserad vs auto-upptäckte hotregler från Meta data

Samlar in olika data för Criminal Intelligence Analysis

  • Att använda IoT (Internet of Things) som sensorer för att fånga data
  • Att använda satellitbilder för inhemsk övervakning
  • Att använda övervaknings- och bilddata för brottslig identifiering
  • Andra datainsamlingsteknologier - drönare, kroppskameror, GPS-taggningssystem och termisk bildteknik
  • Att kombinera automatiserad datainsamling med data som erhållits från informatörer, förhör och forskning
  • Forecasting brottslig verksamhet

Dag 04

Bedrägeriförebyggande BI från Big Data i Fraud Analytics

  • Grundläggande klassificering av bedrägerianalys - regelbaserad vs prediktiv analys
  • Övervakad vs oövervakad maskininlärning för bedrägerimönsterigenkänning
  • Business till affärsbedrägerier, medicinska kravbedrägerier, försäkringsbedrägerier, skatteflykt och penningtvätt

Social Media Analys – Underrättelseinsamling och analys

  • Hur Social Media används av brottslingar för att organisera, rekrytera och planera
  • Big Data ETL API för att extrahera data från sociala medier
  • Text-, bild-, metadata- och videodata
  • Sentimentanalys från sociala medieflöden
  • Kontextuell och icke-kontextuell filtrering av sociala medieflöden
  • Social Media Dashboard för att integrera olika sociala medier
  • Automatisk profilering av sociala medieprofiler
  • Live-demo av varje analys kommer att ges genom Treeminer-verktyget

Big Data Analys i bildbehandling och videoflöden

  • Bildlagringstekniker i Big Data -- Lagringslösning för data som överstiger petabyte
  • LTFS (Linear Tape File System) och LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) - lagerlagringslösning för Big image data
  • Grunderna i bildanalys
  • Objektigenkänning
  • Bildegmentering
  • Motion tracking
  • 3-D bildrekonstruktion

Biomått, DNA och nästa generations identifieringsprogram

  • Bortom fingeravtryck och ansiktsigenkänning
  • Taligenkänning, tangentradering (analysera en användares skrivmönster) och CODIS (combined DNA Index System)
  • Bortom DNA-matching: att använda forensisk DNA-fenotypering för att konstruera ett ansikte av DNA-prover

Big Data Instrumentpanel för snabb åtkomst till olika data och visning:

  • Integration av befintlig applikationsplattform med Big Data Dashboard
  • Big Data hantering
  • Fallstudie av Big Data Dashboard: Tableau och Pentaho
  • Använd Big Data app för att trycka på platsbaserade tjänster i Govt.
  • Tracking system och management

Dag 05

Hur man rättfärdigar Big Data BI-implementering inom en organisation:

  • Definiera ROI (Return on Investment) för implementering av Big Data
  • Fallstudier för att spara analystid vid insamling och förberedelse av data - öka produktiviteten
  • Intäktsökning från lägre kostnader för databasen
  • Intäktsökning från platsbaserade tjänster
  • Kostnadsbesparingar från bedrägeriförebyggande åtgärder
  • En integrerad kalkylbladsmetod för att beräkna ungefärliga kostnader vs. Intäktsökning/besparingar från implementering av Big Data.

Steg för steg procedur för att ersätta ett äldre datasystem med ett Big Data System

  • Big Data Migrationsvägkarta
  • Vilken kritisk information behövs innan man arkitekterar ett Big Data system?
  • Vilka är de olika sätten att beräkna volym, hastighet, variation och korrekthet hos data
  • Hur man uppskattar datatillväxt
  • Fallstudier

Granskning av Big Data Leverantörer och recension av deras produkter.

  • Accenture
  • APTEAN (tidigare CDC Software)
  • Cisco System
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (tidigare 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institutet
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Programvara
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (en del av EMC)

Frågestund

Krav

  • Kunskap om brottsbekämpningsprocesser och datasystem
  • Grundläggande förståelse för SQL/Oracle eller relationsdatabas
  • Grundläggande förståelse för statistik (på Spreadsheet-nivå)

Målgrupp

  • Law Enforcement-specialister med teknisk bakgrund
 35 timmar

Antal deltagare


Price per participant

Vittnesmål (1)

Upcoming Courses

Relaterade Kategorier