Kursplan
Dag 01
Översikt över Big Data Business Intelligence för brottsbekämpning Intelligence Analysis
- Fallstudier från rättsväsendet - Predictive Policing
- Big Data antagningsgrad i brottsbekämpande myndigheter och hur de anpassar sin framtida verksamhet kring Big Data Predictive Analytics
- Framväxande teknologilösningar som skottSensorer, övervakningsvideo och sociala medier
- Att använda Big Data teknologi för att mildra informationsöverflödet
- Gränssnitt Big Data med Legacy-data
- Grundläggande förståelse för möjliggörande teknologier inom prediktiv analys
- Data Integration & Dashboardvisualisering
- BedrägeriHantering
- Business Rules och bedrägeridetektion
- Hotdetektering och profilering
- Kostnadsnyttoanalys för implementering av Big Data
Introduktion till Big Data
- Huvuddrag hos Big Data - Volym, Variation, Hastighet och Veracitet.
- MPP (Massively Parallel Processing) arkitektur
- Data Warehouses – statisk schema, långsamt utvecklande dataset
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Baserade lösningar - inga villkor på struktur av dataset.
- Typiskt mönster : HDFS, MapReduce (crunch), hämta från HDFS
- Apache Spark för strömbehandling
- Batch-suited för analytiska/non-interaktiva
- Volym : CEP-strömmande data
- Typiska val - CEP-produkter (t.ex. Infostreams, Apama, MarkLogic etc)
- Mindre produktionsklara - Storm/S4
- NoSQL Databases - (kolumnar och nyckel-värde): Bäst lämpad som analytisk adjunct till datalager/databas
NoSQL lösningar
- KV-butik - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV-butik - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV-butik (hierarkisk) - GT.m, Cache
- KV-butik (ordnad) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV-cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Bred kolumnar butik - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Datavarianter: Introduktion till Data Cleaning nummer i Big Data
- RDBMS – statisk struktur/schema, främjar inte en agil, utforskande miljö.
- NoSQL – semi-strukturerad, tillräcklig struktur för att lagra data utan exakt schema innan lagring av data
- Data rengöringsproblem
Hadoop
- När ska Hadoop väljas?
- STRUKTURERAD - Enterprise datalager/databaser kan lagra massiv data (till en kostnad) men ålägger struktur (inte bra för aktiv utforskning)
- SEMI STRUKTURERAD data - svårt att utföra med traditionella lösningar (DW/DB)
- Datavaroing = STOR ansträngning och statisk även efter implementation
- För variation och volym av data, crunchade på commodity-hårdvara - HADOOP
- Commodity H/W behövs för att skapa en Hadoop kluster
Introduktion till Map Reduce /HDFS
- MapReduce - distribuera beräkningar över flera servrar
- HDFS - göra data tillgänglig lokalt för beräkningsprocessen (med redundans)
- Data - kan vara ostrukturerad/schema-lös (till skillnad från RDBMS)
- Utvecklarens ansvar att få data att ge mening
- Programming MapReduce = arbete med Java (pros/cons), manuellt ladda data i HDFS
Dag 02
Big Data Ekosystemet - Bygga Big Data ETL (Extract, Transform, Load) - Vilka Big Data verktyg ska användas och när?
- Hadoop vs. Andra NoSQL lösningar
- För interaktiv, slumpmässig åtkomst till data
- Hbase (kolumnorienterad databas) ovanpå Hadoop
- Slumpar åtkomst till data men begränsningar ålagda (max 1 PB)
- Inte bra för ad-hoc-analyser, bra för loggning, räkning, tidsserier
- Sqoop - Importera från databaser till Hive eller HDFS (JDBC/ODBC-åtkomst)
- Flume - Streama data (t.ex. loggdata) till HDFS
Big Data Management System
- Rörliga delar, beräkningsnoder startar/felet :ZooKeeper - För konfiguration/koordination/naming tjänster
- Complex pipeline/workflow: Oozie - hantera arbetsflöden, beroenden, prydnadskedja
- Distribuera, konfigurera, klusterhantering, uppgradera osv (sysadmin): Ambari
- I Cloud: Whirr
Predictive Analytics -- Grundläggande tekniker och Machine Learning baserad Business intelligens
- Introduktion till Machine Learning
- Lära sig klassificeringstekniker
- Bayesiansk prediktion - förbereda en träningsfil
- Support Vector Machine
- KNN p-Tree Algebra & vertikal gruvdrift
- Neural Networks
- Big Data stort variabelproblem - Random forest (RF)
- Big Data Automationsproblem - Multi-model ensemble RF
- Automation genom Soft10-M
- Textanalysverktyg - Treeminer
- Agile lärande
- Agentbaserat lärande
- Distribuerat lärande
- Introduktion till verktyg med öppen källkod för prediktiv analys: R, Python, Rapidminer, Mahut
Predictive Analytics Ekosystem och dess tillämpning i Criminal Intelligence Analysis
- Teknik och den utredande processen
- Insiktsanalytik
- Visualiseringsanalytik
- Strukturerad prediktiv analys
- Ostrukturerad prediktiv analys
- Hot/bedrägeristar/vendorprofilering
- Rekommendationsmotor
- Mönsterigenkänning
- Regel/scenarieforskning - fel, bedrägeri, optimering
- Upptäckte grundorsaker
- Sentimentanalys
- CRM-analys
- Nätverksanalys
- Textanalys för att få insikter från transkriptioner, vittnesmål, internetprat, etc.
- Teknikassistans för granskning
- Bedrägeri analytik
- Analytik i realtid
Dag 03
Real Time och Scalable Analytics Over Hadoop
- Varför vanliga analytiska algoritmer misslyckas i Hadoop/HDFS
- Apache Hama- för Bulk Synchronous distribuerad databehandling
- Apache SPARK- för klusterberäkning och realtidsanalytik
- CMU Graphics Lab2- Grafbaserat asynkront tillvägagångssätt för distribuerad databehandling
- KNN p - Algebra-baserat tillvägagångssätt från Treeminer för minskad hårdvarukostnad för drift
Verktyg för eDiscovery och Forensics
- eDiscovery över Big Data vs. Legacy-data - en jämförelse av kostnad och prestanda
- Prediktiv kodning och teknikassisterad granskning (TAR)
- Live-demo av vMiner för att förstå hur TAR möjliggör snabbare upptäckter
- Snabbare indexering genom HDFS - datans hastighet
- NLP (Natural Language processing) - open source-produkter och tekniker
- eDiscovery på främmande språk - teknologi för bearbetning av främmande språk
Big Data BI för Cyber Security – Få en 360-gradersvy, snabb datainsamling och hotidentifiering
- Förstå grunderna i säkerhetsanalys - attackyta, säkerhetsfelkonfiguration, värdskydd
- Nätverksinfrastruktur / Stora datapipe / Respons ETL för realtidsanalys
- Prescriptive vs predictive - Fast regelbaserad vs auto-upptäckte hotregler från Meta data
Samlar in olika data för Criminal Intelligence Analysis
- Att använda IoT (Internet of Things) som sensorer för att fånga data
- Att använda satellitbilder för inhemsk övervakning
- Att använda övervaknings- och bilddata för brottslig identifiering
- Andra datainsamlingsteknologier - drönare, kroppskameror, GPS-taggningssystem och termisk bildteknik
- Att kombinera automatiserad datainsamling med data som erhållits från informatörer, förhör och forskning
- Forecasting brottslig verksamhet
Dag 04
Bedrägeriförebyggande BI från Big Data i Fraud Analytics
- Grundläggande klassificering av bedrägerianalys - regelbaserad vs prediktiv analys
- Övervakad vs oövervakad maskininlärning för bedrägerimönsterigenkänning
- Business till affärsbedrägerier, medicinska kravbedrägerier, försäkringsbedrägerier, skatteflykt och penningtvätt
Social Media Analys – Underrättelseinsamling och analys
- Hur Social Media används av brottslingar för att organisera, rekrytera och planera
- Big Data ETL API för att extrahera data från sociala medier
- Text-, bild-, metadata- och videodata
- Sentimentanalys från sociala medieflöden
- Kontextuell och icke-kontextuell filtrering av sociala medieflöden
- Social Media Dashboard för att integrera olika sociala medier
- Automatisk profilering av sociala medieprofiler
- Live-demo av varje analys kommer att ges genom Treeminer-verktyget
Big Data Analys i bildbehandling och videoflöden
- Bildlagringstekniker i Big Data -- Lagringslösning för data som överstiger petabyte
- LTFS (Linear Tape File System) och LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) - lagerlagringslösning för Big image data
- Grunderna i bildanalys
- Objektigenkänning
- Bildegmentering
- Motion tracking
- 3-D bildrekonstruktion
Biomått, DNA och nästa generations identifieringsprogram
- Bortom fingeravtryck och ansiktsigenkänning
- Taligenkänning, tangentradering (analysera en användares skrivmönster) och CODIS (combined DNA Index System)
- Bortom DNA-matching: att använda forensisk DNA-fenotypering för att konstruera ett ansikte av DNA-prover
Big Data Instrumentpanel för snabb åtkomst till olika data och visning:
- Integration av befintlig applikationsplattform med Big Data Dashboard
- Big Data hantering
- Fallstudie av Big Data Dashboard: Tableau och Pentaho
- Använd Big Data app för att trycka på platsbaserade tjänster i Govt.
- Tracking system och management
Dag 05
Hur man rättfärdigar Big Data BI-implementering inom en organisation:
- Definiera ROI (Return on Investment) för implementering av Big Data
- Fallstudier för att spara analystid vid insamling och förberedelse av data - öka produktiviteten
- Intäktsökning från lägre kostnader för databasen
- Intäktsökning från platsbaserade tjänster
- Kostnadsbesparingar från bedrägeriförebyggande åtgärder
- En integrerad kalkylbladsmetod för att beräkna ungefärliga kostnader vs. Intäktsökning/besparingar från implementering av Big Data.
Steg för steg procedur för att ersätta ett äldre datasystem med ett Big Data System
- Big Data Migrationsvägkarta
- Vilken kritisk information behövs innan man arkitekterar ett Big Data system?
- Vilka är de olika sätten att beräkna volym, hastighet, variation och korrekthet hos data
- Hur man uppskattar datatillväxt
- Fallstudier
Granskning av Big Data Leverantörer och recension av deras produkter.
- Accenture
- APTEAN (tidigare CDC Software)
- Cisco System
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (tidigare 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institutet
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Programvara
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (en del av EMC)
Frågestund
Krav
- Kunskap om brottsbekämpningsprocesser och datasystem
- Grundläggande förståelse för SQL/Oracle eller relationsdatabas
- Grundläggande förståelse för statistik (på Spreadsheet-nivå)
Målgrupp
- Law Enforcement-specialister med teknisk bakgrund
Vittnesmål (1)
Deepthi var super inställd på mina behov, hon kunde avgöra när hon skulle lägga till lager av komplexitet och när hon skulle hålla tillbaka och ta en mer strukturerad metod. Deepthi arbetade verkligen i min takt och såg till att jag kunde använda de nya funktionerna / verktygen själv genom att först visa och sedan låta mig återskapa sakerna själv, vilket verkligen hjälpte till att befästa träningen. Jag kunde inte vara mer nöjd med resultaten av denna träning och med Deepthis kompetensnivå!
Deepthi - Invest Northern Ireland
Kurs - IBM Cognos Analytics
Machine Translated