Introduction and configuring Oracle Data Integrator for Big Data (Cloudera Hadoop)

imageApache Hadoop is designed to handle and process data that is typically from data sources that are non-relational and data volumes that are beyond what is handled by relational databases.

Oracle Data Integrator is a transparent and heterogeneous Big Data Integration technology based on an open and lightweight ELT architecture. It runs a diverse set of workloads, including Spark, Spark Streaming and Pig transformations, to enable customers solve their most complex and time sensitive data transformation and data movement challenges. It is a core component of Oracle Data Integration solutions, integrating seamlessly with the rest of Oracle’s Data Integration and Business Application solutions

Oracle Data Integrator for Big Data provides the following benefits to customers:

  • It brings expanded connectivity to various Big Data source such as Apache Kafka or Cassandra
  • It decreases time to value for Big Data projects
  • It provides a future proof Big Data Integration technology investment
  • It streamlines and shortens the Big Data development and implementation process

Currently ODI supports

  • Generation of Pig Latin transformations: users can choose Pig Latin as their transformation language and execution engine for ODI mappings. Apache Pig is a platform for analyzing large data sets in Hadoop and uses the high-level language Pig Latin for expressing data analysis programs.
  • Generation of Spark and Spark Streaming transformations: ODI mappings can also generate PySpark. Apache Spark is a transformation engine for large-scale data processing. It provides fast in-memory processing of large data sets. Custom PySpark code can be added through user-defined functions or the table function component.
  • Orchestration of ODI Jobs using Oozie: users have a choice between using the traditional ODI Agent or Apache Oozie as orchestration engines for jobs such as mappings, packages, scenarios, or procedures. Apache Oozie allows fully native execution on Hadoop infrastructures without installing an ODI agent for orchestration. Users can utilize Oozie tooling to schedule, manage, and monitor ODI jobs. ODI uses Oozie’s native actions to execute Hadoop processes and conditional branching logic

You can use Oracle Data Integrator to design the ‘what’ of an integration flow and assign knowledge modules to define the ‘how’ of the flow in an extensible range of mechanisms. The ‘how’ is whether it is Oracle, Teradata, Hive, Spark, Pig, etc.

Let’s configure Oracle Data Integrator for Cloudera Hadoop. You don’t need to install any components on your Hadoop Cluster. It is enough to have remote connection to manage all jobs on Hadoop.

Continue reading ‘Introduction and configuring Oracle Data Integrator for Big Data (Cloudera Hadoop)’ »

Installing Edge (Gateway) Node for Hadoop or Install client for Hadoop

imageMany tools use Hadoop as backend for performing some jobs. For example we can use Kafka (or HDFS) as stage area for Oracle Data Integrator or GoldenGate. Usually it better to install separate node which will be used by ODI or GoldenGate exclusively because if will install them on Hadoop node then they will interference with other workload. And because Hadoop is cluster. Each node does its work and whole job is not finished until last node is finished. So caravans move at the speed of the slowest camel.

Hadoop vendors call such special node “Edge” or “Gateway”. They don’t contain any data, don’t participate in data process but host client software and Hadoop configuration. Let’s look how to install such node. I will use Cloudera distribution and Cloudera Manager as management tool.

Why do we need to configure Edge nodes using tools like Cloudera Manager or Ambari? Because software and configuration should be refreshed. We shouldn’t bother if somebody add new Kafka broker or changed Zookeeper host. That’s why management tool does this.

So let’s start.

Continue reading ‘Installing Edge (Gateway) Node for Hadoop or Install client for Hadoop’ »

Oracle DataSource for Apache Hadoop (OD4H): introduction



Currently we see that Hadoop is becoming part of Enterprise Data Warehouse family. But family should be connected to each other. Sometimes we need access to Hadoop from Oracle Database. Sometimes Hadoop users need enterprise data stored in Oracle database.

Hive has very interesting concept — External Tables which allow you to define Java classes to access external database and present it as a native hive table.

Oracle Datasource for Apache Hadoop (formerly Oracle Table Access for Apache Hadoop) turns Oracle Database tables into a Hadoop data source (i.e., external table) enabling direct and consistent Hive QL/Spark SQL queries, as well as direct Hadoop API access. Applications can join master data or dimension data in Oracle Database with data stored in Hadoop. Additionally data can be written back to Oracle Database after processing.

Oracle Datasource for Apache Hadoop optimizes a query’s execution plans using predicate and projection pushdown, and partition pruning. Database table access is performed in parallel based on the selected split patterns, using smart and secure connections (Kerberos, SSL, Oracle Wallet), regulated by both Hadoop (i.e., maximum concurrent tasks) and Oracle DBAs (i.e., max pool size).

Continue reading ‘Oracle DataSource for Apache Hadoop (OD4H): introduction’ »

Oracle BigData Lite VM introduction

imageVirtual Machine Oracle BigData Lite is vm created by Oracle for development and demo purposes of BigData (Cloudera) and Oracle technologies working together.

You can download BigData Lite VM from Oracle site. This vm includes following software (for vm version 4.4):

Continue reading ‘Oracle BigData Lite VM introduction’ »

Веб-семинар по GoldenGate 6 февраля 2015 в 11:00

imageOracle приглашает на бесплатный вебинар по продуктам интеграции данных Oracle. Вебинар будет проходить 6 февраля 2015 в 11:00 по Московскому времени.

В рамках веб-семинара будет возможность получить общие знания по функционалу и настройке продуктов, а так же основные аспекты их применения для решения задач бизнеса. Пожалуйста, приглашайте ваших коллег, которым будет интересно данное мероприятие.

Программа семинара:

11:00-11:40 Обзор решений Oracle по интеграции данных (ODI, EDQ, OEMM). Типовая архитектура Oracle для управления информацией.
11:40-12:40 Основы работы GoldenGate
12:40-14:00 Установка и настройка GoldenGate для различных СУБД, JMS-очередей, BigData и плоских файлов

Для регистрации на семинар необходимо щелкнув по ссылке зарегистрироваться, либо написать письмо с заголовком «I Am Confirming My Attendance On DIS webinar On 06.02.15» на адреса и

Hadoop с человеческим лицом. Введение в Oracle Big Data Discovery. Веб семинар 5 февраля 2014 года 21:00 МСК.

image5 февраля в 21:00 по Москве (10:00am PT / 1:00pm ET) пройдет веб-семинар, на котором Oracle покажет новый продукт Oracle Big Data Discovery.

Записаться на семинар можно по ссылке

Краткое введение под катом.

Continue reading ‘Hadoop с человеческим лицом. Введение в Oracle Big Data Discovery. Веб семинар 5 февраля 2014 года 21:00 МСК.’ »

Бесплатный мастер-класс по технологиям интеграции данных 25 февраля с 13:00 до 19:00 в Москве


На семинаре будут рассмотрены следующие темы

  • Экономический эффект от внедрения платформы интеграции данных для конкретных индустрий
  • Влияние роста объемов данных и количества источников на ИТ-инфраструктуру
  • Анализ типичных внедрений и основные проблемы, которые мы видели в организациях при реализации единого подхода к перемещению/обмену/интеграции данных в масштабе предприятия
  • Обзор и демонстрация технологий
  • Использование технологий интеграции данных в современной IT архитектуре: BigData, InMemory, Real-time и Mobile Apps


Continue reading ‘Бесплатный мастер-класс по технологиям интеграции данных 25 февраля с 13:00 до 19:00 в Москве’ »

Использование GoldenGate в Oracle Data Integrator 12c

image Одним из крупных нововведений Oracle Data Integrator 12c является более тесная интеграция с GoldenGate:

  • Oracle GoldenGate теперь описывается как сервер данных в топологии. Процессы extract и replicat описываются с помощью физических и логических схем. Такая конфигурация позволяет использовать стандартные подходы ODI по отделению непосредственно проектирования в логических терминах от физического размещения
  • Большинство параметров GoldenGate Extract и Replicat могут быть настроены в рамках конфигурирования физической схемы.
  • Один и тот же mapping может быть использован для пакетной и CDC загрузки
  • Файлы параметров GoldenGate могут быть автоматически загружены в GoldenGate, а соответствующие процессы стартованы. Достигается это за счет использования технологии JAgent.

В этой статье я рассмотрю совместное конфигурирование ODI и GoldenGate для инкрементального обновления хранилища в режиме, близком к реальному времени.

Continue reading ‘Использование GoldenGate в Oracle Data Integrator 12c’ »

Oracle BI и SampleApp V309R2

В открытом доступе появилась новая версия Oracle BI SampleApp — это набор демонстраций, призванных показать, что может быть реализовано на базе продуктов Oracle. В новой версии расширены демонстрации по интеграции с:

  • Spatial
  • Enterprise R
  • Endeca
  • Oracle 12c
  • Oracle Text
  • Oracle Data Mining

Публичная демка доступна по адресу

Логин: Prodney/Admin123

Кому хочется развернуть у себя качайте виртуальную машину вот здесь: