Schulungsübersicht
=====
Tag 01
=====
Überblick über Big Data Business Intelligence für die kriminalpolizeiliche Analyse
- Fallstudien aus der Strafverfolgung - Predictive Policing
- Big Data Business Die Akzeptanz von Predictive Policing in den Strafverfolgungsbehörden und wie sie ihre zukünftigen Abläufe darauf ausrichten Big Data Predictive Analytics
- Neue technologische Lösungen wie Schusswaffensensoren, Überwachungsvideos und soziale Medien
- Einsatz von Big Data-Technologie zur Verringerung der Informationsflut
- Verknüpfung von Big Data mit Altdaten
- Grundlegendes Verständnis der Grundlagentechnologien für prädiktive Analysen
- Data Integration & Dashboard-Visualisierung
- Betrugsmanagement
- Business Regeln und Betrugserkennung
- Bedrohungserkennung und Profiling
- Kosten-Nutzen-Analyse für Big Data-Implementierung
Einführung in Big Data
- Hauptmerkmale von Big Data - Volumen, Vielfalt, Geschwindigkeit und Wahrhaftigkeit.
- MPP-Architektur (Massive Parallel Processing)
- Data Warehouses - statisches Schema, sich langsam entwickelnder Datenbestand
- MPP Databases: Greenplum, Exadata, Teradata, Netezza, Vertica usw.
- Hadoop-basierte Lösungen - keine Bedingungen an die Struktur des Datensatzes.
- Typisches Muster: HDFS, MapReduce (Crunch), Abruf aus HDFS
- Apache Spark für Stromverarbeitung
- Batch- geeignet für analytische/nicht interaktive
- Umfang : CEP-Streaming-Daten
- Typische Wahl - CEP-Produkte (z. B. Infostreams, Apama, MarkLogic usw.)
- Weniger produktionsreif - Storm/S4
- NoSQL Databases - (spaltenförmig und Key-Value): Am besten geeignet als analytische Ergänzung zu Data Warehouse/Datenbank
NoSQL Lösungen
- KV-Speicher - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV-Speicher - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV-Speicher (Hierarchisch) - GT.m, Cache
- KV-Speicher (geordnet) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV-Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tupel-Speicher - Gigaspaces, Coord, Apache River
- Objekt Database - ZopeDB, DB40, Shoal
- Dokumentenspeicher - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Breiter spaltenförmiger Speicher - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Arten von Daten: Einführung in Data Cleaning Themen in Big Data
- RDBMS - statische Struktur/Schema, fördert keine agile, explorative Umgebung.
- NoSQL - halbstrukturiert, genügend Struktur zum Speichern von Daten ohne genaues Schema vor dem Speichern der Daten
- Probleme bei der Datenbereinigung
Hadoop
- Wann sollte man Hadoop wählen?
- STRUKTURIERT - Data-Warehouses/Datenbanken in Unternehmen können große Datenmengen speichern (was mit Kosten verbunden ist), zwingen aber eine Struktur auf (nicht gut für eine aktive Erkundung)
- SEMI STRUKTURIERTE Daten - mit herkömmlichen Lösungen (DW/DB) schwer zu realisieren
- Warehousing von Daten = RIESIGer Aufwand und auch nach der Implementierung statisch
- Für die Vielfalt und das Volumen der Daten, die auf handelsüblicher Hardware verarbeitet werden - HADOOP
- Commodity-Hardware erforderlich, um einen Hadoop Cluster zu erstellen
Einführung in MapReduce /HDFS
- MapReduce - Verteilen der Datenverarbeitung auf mehrere Server
- HDFS - stellt Daten lokal für den Rechenprozess zur Verfügung (mit Redundanz)
- Daten - können unstrukturiert/schemafrei sein (im Gegensatz zu RDBMS)
- Verantwortung des Entwicklers, die Daten sinnvoll zu nutzen
- Programming MapReduce = Arbeit mit Java (Vor- und Nachteile), manuelles Laden von Daten in HDFS
=====
Tag 02
=====
Big Data Ökosystem - Aufbau von Big Data ETL (Extrahieren, Transformieren, Laden) - Welche Big Data Tools verwenden und wann?
- Hadoop vs. andere NoSQL Lösungen
- Für interaktiven, wahlfreien Zugriff auf Daten
- Hbase (spaltenorientierte Datenbank) auf der Basis von Hadoop
- Zufälliger Zugriff auf Daten, aber mit Einschränkungen (max. 1 PB)
- Nicht gut für Ad-hoc-Analysen, gut für Protokollierung, Zählung, Zeitserien
- Sqoop - Import aus Datenbanken in Hive oder HDFS (JDBC/ODBC-Zugang)
- Flume - Streaming von Daten (z.B. Log-Daten) in HDFS
Big Data Management System
- Bewegliche Teile, Start/Ausfall von Rechenknoten :ZooKeeper - Für Konfigurations-/Koordinations-/Benennungsdienste
- Komplexe Pipeline/Workflow: Oozie - Verwaltung von Arbeitsabläufen, Abhängigkeiten, Daisy Chain
- Bereitstellung, Konfiguration, Cluster-Management, Upgrade usw. (Systemadministrator) :Ambari
- In der Cloud: Whirr
Predictive Analytics -- Grundlegende Techniken und Machine Learning basierte Business Intelligenz
- Einführung in Machine Learning
- Klassifizierungstechniken lernen
- Bayessche Vorhersage - Vorbereitung einer Trainingsdatei
- Support-Vektor-Maschine
- KNN p-Tree Algebra & vertikales Mining
- Neural Networks
- Big Data Problem mit großen Variablen - Random Forest (RF)
- Big Data Automatisierungsproblem - Multi-Model-Ensemble RF
- Automatisierung durch Soft10-M
- Textanalytisches Werkzeug - Treeminer
- Agile Lernen
- Agentenbasiertes Lernen
- Verteiltes Lernen
- Einführung in Open-Source-Tools für prädiktive Analytik: R, Python, Rapidminer, Mahut
Predictive Analytics Ökosystem und seine Anwendung in der kriminalpolizeilichen Analyse
- Technologie und der Ermittlungsprozess
- Einsichtsanalytik
- Visualisierte Analytik
- Strukturierte prädiktive Analytik
- Unstrukturierte prädiktive Analytik
- Erstellung von Bedrohungs-/Betrugsstar-/Anbieterprofilen
- Empfehlungsmaschine
- Erkennung von Mustern
- Regel-/Szenarioerkennung - Ausfall, Betrug, Optimierung
- Entdeckung der Grundursache
- Sentiment-Analyse
- CRM-Analytik
- Netzwerk-Analysen
- Textanalyse zur Gewinnung von Erkenntnissen aus Protokollen, Zeugenaussagen, Internet-Chatter usw.
- Technologiegestützte Überprüfung
- Betrugsanalytik
- Echtzeit-Analytik
=====
Tag 03
=====
Echtzeit- und Scalable-Analytik über Hadoop
- Warum gängige analytische Algorithmen in Hadoop/HDFS versagen
- Apache Hama- für Bulk-Synchronous Distributed Computing
- Apache SPARK- für Cluster-Computing und Echtzeit-Analytik
- CMU Graphics Lab2- Graphenbasierter asynchroner Ansatz für verteiltes Rechnen
- KNN p -- Algebra-basierter Ansatz von Treeminer für reduzierte Hardware-Betriebskosten
Werkzeuge für eDiscovery und Forensik
- eDiscovery über Big Data vs. Legacy-Daten - ein Vergleich von Kosten und Leistung
- Prädiktive Kodierung und technologiegestützte Überprüfung (TAR)
- Live-Demo von vMiner zum Verständnis, wie TAR eine schnellere Discovery ermöglicht
- Schnellere Indizierung durch HDFS - Geschwindigkeit der Daten
- NLP (Natural Language processing) - Open Source Produkte und Techniken
- eDiscovery in Fremdsprachen - Technologie für die Fremdsprachenverarbeitung
Big Data BI für Cyber Security - Erlangung eines 360-Grad-Blicks, schnelle Datenerfassung und Identifizierung von Bedrohungen
- Verstehen der Grundlagen der Sicherheitsanalyse - Angriffsfläche, falsche Sicherheitskonfiguration, Host-Verteidigung
- Netzwerkinfrastruktur / Große Datenleitungen / Response ETL für Echtzeit-Analysen
- Prädiktiv vs. prädiktiv - feste Regeln vs. automatische Erkennung von Bedrohungsregeln aus Metadaten
Sammeln unterschiedlicher Daten für kriminalistische Analysen
- Einsatz von IoT (Internet der Dinge) als Sensoren zur Datenerfassung
- Nutzung von Satellitenbildern für die Inlandsüberwachung
- Nutzung von Überwachungs- und Bilddaten für die Identifizierung von Kriminellen
- Andere Technologien zur Datenerfassung - Drohnen, Körperkameras, GPS-Tagging-Systeme und Wärmebildtechnik
- Kombination von automatisiertem Datenabruf mit Daten, die durch Informanten, Verhöre und Forschung gewonnen wurden
- Forecasting kriminelle Aktivitäten
=====
Tag 04
=====
Betrugsprävention BI von Big Data in Fraud Analytics
- Grundlegende Klassifizierung von Fraud Analytics - regelbasierte vs. prädiktive Analytik
- Überwachtes vs. unüberwachtes maschinelles Lernen zur Erkennung von Betrugsmustern
- Business zu Geschäftsbetrug, Betrug bei medizinischen Leistungen, Versicherungsbetrug, Steuerhinterziehung und Geldwäsche
Social Media Analytik - Sammlung und Analyse von Informationen
- Wie Social Media von Kriminellen zur Organisation, Rekrutierung und Planung genutzt wird
- Big Data ETL-API für die Extraktion von Social-Media-Daten
- Text, Bild, Metadaten und Video
- Stimmungsanalyse aus Social Media Feeds
- Kontextuelles und nicht-kontextuelles Filtern von Social Media Feeds
- Social Media Dashboard zur Integration verschiedener sozialer Medien
- Automatisierte Profilerstellung von Social Media Profilen
- Eine Live-Demonstration der einzelnen Analyseverfahren wird mit dem Treeminer Tool durchgeführt
Big Data Analytik in der Bildverarbeitung und in Video-Feeds
- Bildspeichertechniken in Big Data -- Speicherlösung für Daten im Petabyte-Bereich
- LTFS (Linear Tape File System) und LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- mehrschichtige Speicherlösung für große Bilddaten
- Grundlagen der Bildanalytik
- Objekt-Erkennung
- Segmentierung von Bildern
- Bewegungsverfolgung
- 3-D Bildrekonstruktion
Bio Metrik, DNA und Identifizierungsprogramme der nächsten Generation
- Über Fingerabdrücke und Gesichtserkennung hinaus
- Spracherkennung, Tastenanschlag (Analyse des Tippmusters eines Benutzers) und CODIS (kombiniertes DNA-Index-System)
- Über den DNA-Abgleich hinaus: Verwendung der forensischen DNA-Phänotypisierung zur Konstruktion eines Gesichts aus DNA-Proben
Big Data Dashboard für den schnellen Zugriff auf verschiedene Daten und deren Anzeige:
- Integration der bestehenden Anwendungsplattform mit Big Data Dashboard
- Big Data Verwaltung
- Fallstudie zu Big Data Dashboard: Tableau und Pentaho
- Verwendung der Big Data-App für standortbezogene Dienste in Govt.
- Tracking-System und Verwaltung
=====
Tag 05
=====
Wie rechtfertigt man die Big Data BI-Implementierung in einer Organisation?
- Definition des ROI (Return on Investment) für die Implementierung von Big Data
- Fallstudien zur Einsparung von Analystenzeit bei der Datensammlung und -aufbereitung - Steigerung der Produktivität
- Umsatzsteigerung durch geringere Kosten für Datenbanklizenzen
- Umsatzsteigerung durch standortbezogene Dienste
- Kosteneinsparungen durch Betrugsprävention
- Ein integrierter Tabellenkalkulationsansatz für die Berechnung der ungefähren Kosten im Vergleich zu den Einnahmegewinnen/Einsparungen durch die Implementierung von Big Data.
Schritt-für-Schritt-Verfahren zum Ersetzen eines alten Datensystems durch ein Big Data-System
- Big Data Migrationsfahrplan
- Welche wichtigen Informationen werden vor der Entwicklung eines Big Data-Systems benötigt?
- Welche verschiedenen Methoden gibt es zur Berechnung von Datenvolumen, -geschwindigkeit, -vielfalt und -wahrheit?
- Wie kann man das Datenwachstum abschätzen?
- Fallstudien
Überprüfung von Big Data-Anbietern und deren Produkten.
- Accenture
- APTEAN (ehemals CDC Software)
- Cisco Systeme
- Cloudera
- Dell
- EMC
- GoodData Gesellschaft
- Guavus
- Hitachi Datensysteme
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (ehemals 10Gen)
- MU Sigma
- Netapp
- Opera-Lösungen
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytik
- Salesforce
- SAP
- SAS Institut
- Sisense
- Software AG/Terracotta
- Soft10 Automatisierung
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytik
- Tidemark-Systeme
- Treeminer
- VMware (Teil von EMC)
Q/A-Sitzung
Voraussetzungen
- Kenntnisse über Strafverfolgungsprozesse und Datensysteme
- Grundkenntnisse in SQL/Oracle oder relationaler Datenbank
- Grundkenntnisse in Statistik (auf Tabellenkalkulationsniveau)
Erfahrungsberichte (2)
Deepthi hat sich sehr gut auf meine Bedürfnisse eingestellt, sie konnte erkennen, wann sie die Komplexität erhöhen und wann sie sich zurückhalten und einen strukturierteren Ansatz wählen sollte. Deepthi hat sich wirklich an mein Tempo angepasst und sichergestellt, dass ich die neuen Funktionen/Tools selbst nutzen konnte, indem sie sie mir zuerst zeigte und mich dann die Elemente selbst nachbauen ließ, was wirklich dazu beigetragen hat, die Schulung zu verankern. Ich könnte nicht zufriedener sein mit den Ergebnissen dieser Schulung und mit dem Niveau der Expertise von Deepthi!
Deepthi - Invest Northern Ireland
Kurs - IBM Cognos Analytics
Maschinelle Übersetzung
Praktische Übungen mit unseren Daten