Docstoc

HBase-Trend-HUG10

Document Sample
HBase-Trend-HUG10 Powered By Docstoc
					    HBase @ Trend Micro

          Andrew Purtell
       apurtell@apache.org
       HUG10, April 19, 2010




                  
Smart Protection Network
                                                                      WEB
                                                                   REPUTATION


    Threats                                     EMAIL                                  FILE
                                                REPUTATION                             REPUTATION

                          Threat Collection

                     • Customers
                     • Partners
                     • TrendLabs Research,                         Threat Analysis
                       Service & Support                             TrendLabs &                     Management
                     • Samples                                     Malware Database
                     • Submissions
                     • Honeypots
                     • Web Crawling
                     • Feedback Loops
                     • Behavioral Analysis




                                                                                                              SaaS/Managed
              Partners

              • ISPs                                                                                              Cloud
              • Routers
              • Etc.

                                                    Endpoint

                                  Off Network                                                       Gateway


                                                                                Messaging




                                                                
Trend: Antivirus → Internet scale Content Security
Our Challenges
Strong Growth Trend

    ●   The demands of our industry are exponentially increasing




                                    
Our Challenges




Threat  models  of  the 
Internet  are  large 
because it is large 
                            
Our Challenges




According  to  one  estimate,  globally 
the  world  created  150  exabytes  of 
data in 2005
This  year,  the  world  will  create  in 
excess of 1,500 exabytes
                                
Our Challenges

The  only  finite  bound  on  the  amount  of  information  that 
may  ultimately  be  available  on  the  Internet  is  the  sum 
interesting information output of everyone




                                 
Our Challenges
Managing the data




                     
Our Challenges
Finding the threats in
Internet space in time
to protect our
customers




                          
Trend Cloud
Cloud Scale Engineering

    ●   Anticipate Big Data
        ●   Trillions (10^12) of data items
        ●   Petabytes (10^15) of anticipated data volume
    ●   Many many thousands of queries per second
        ●   Massive distributed traversals (analytics)
    ●   Business continuity
        ●   Multiple geographies
        ●   Replication / consistency issues
    ●   Lots  of  asynchronous  processes  updating,  but  latest 
        state is most interesting
    ●   Wide range of data model requirements (→ generalize)
                                         
Trend Cloud
Strategy ­­ Two parallel tracks

    ●   Elastic  infrastructure  for  Smart  Protection  Network 
        back end
        ●   Rearchitect everything
        ●   Elastic service hosting
        ●   Streaming and batch analytics and correlation over Big Data
        ●   Big Data stored in HBase (and HDFS)
        ●   Our Hadoop Group supports this effort directly

    ●   TCloud
        ●   Wholly owned subsidiary
        ●   Enabler of providers of Infrastructure as a Service (IaaS)
        ●   "RedHat of IaaS"
        ●   Take what we build for SPN and leverage it for participating 
            in the Cloud Computing space 
Elastic Infrastructure
Data Analytics



           HTTP                  DNS                 FTP


          Monitor               Incident Trigger     Correlation    Correlation

          Clustering        Analyzer       Crawler      MapReduce   Data Processing

          Tracking System        Hadoop ( HBASE / Meta Data )       Data Archive

          Message Routing framework            Hadoop (HDFS)        Infrastructure

          Virtualization
                                                                    Operating system
          OS




                                            

                             Smart Protection Network
Elastic Infrastructure
WRS (Web Reputation Services)


    Content fetch and                   Real time reputation
    analysis                            query


                                             WEB
                                             REPUTATION




                                EMAIL                     FILE
                                REPUTATION                REPUTATION




                          
                                  Smart Protection Network
Elastic Infrastructure
Big Data Store

    ●   Petascale data stores in multiple geographies
    ●   Strong local (regional) consistency
    ●   Eventual global consistency (asynchronous replication)
    ●   Transparent scalability




                                  
Elastic Infrastructure
Big Data Store

    ●   CAP Theorem
        ●   C: Consistency
             –   Writes are immediately
                 visible to all readers
        ●   A: Availability
             –   The system always
                 returns an answer
                 (immediately)
        ●   P: Partition Tolerance
             –   The system can           BigTable /
                 handle the failure       HBase
                 of some nodes or
                 loss of some
                 messages
    ●   We can have only 2 of 3
    ●   We need "CP" where decisions are made
 
        ●   "Weak C" is a mismatch for the demands of our industry
                                           
        ●   MTTF effects in large infrastructure – something is always down
TCloud
    ●   Who?
        ●   A new operating unit of Trend Micro
        ●   Infrastructure as a Service technology enabler
        ●   "RedHat of IaaS"
    ●   What?
        ●   Flexible, dynamic substrate for cloud computing platform
        ●   Platform for cloud scale multitenant services
        ●   Starting  point  is  a  repackaging  of  our  open  source  based 
            SPN infrastructure
    ●   What can you do with it?
        ●   Turnkey IaaS platform
        ●   Elastic energy conserving Enterprise service platform
        ●   Analytics / data mining / OLAP
             –   Platform
             –   Service hosting
                                          
TCloud
    OS
         Linux
    Virtualization
         Xen
         Eucalyptus
    Storage
         HDFS
         HBase         Integrate   CloudOS
         GlusterFS
    Network
         OpenVSwitch
    Middleware
         OpenMQ
         Squid
         memcached

 
    Management               
HBase in the Trend Cloud
    ●   Global metadata store (GMS)
        ●   Meta­index of everything we know about everything
        ●   Provenance of threat intelligence
    ●   Global event trace, of all our activities and decisions
    ●   Logs  (history,  activity)  from  consumer  desktops  and 
        large entrerprises
    ●   Web crawl archival storage
    ●   Spam email archival storage
    ●   Cache of Internet databases
    ●   Internet threat models
    ●   Term indices
    ●   Linked data

    ●   Generic storage layer for TCloud
 
        ●   SimpleDB analogue         
        ●   Cloud store filesystem
HBase/Hadoop Group @ Trend
Support and Development

    ●   Act as part of the greater ASF Community on behalf of 
        the rest of the company
    ●   Support the greater ASF Community with development 
        resources
    ●   Bugfixes
        ●   E.g. most things that affect HBase users affect us too
    ●   Feature enhancements
        ●   HBase
             –   Security features
             –   Coprocessors
             –   Stargate or other REST­ful or WS connectors
             –   Avro connector ? (What is the state of Avro's C bindings?)
             –   Support the evolution away from master­slave architecture
    ●   Operational best practices
                                   
    ●   Training and mentoring
HBase/Hadoop Group @ Trend
Our Focus


                   Gridmix3


                                        Cascading
                HDFS
               HBase                 Avro

              MapReduce
                                            Mahout
              ZooKeeper
       Hive                                      Nutch
                Core                             Lucene
                                                 Solr
                                  Chukwa


              Supported           Not Supported, Monitoring
                               
HBase/Hadoop Group @ Trend
Multitenancy
    ●   Discretionary  access  control,  audit  support, 
        authentication, authorization
    ●   Fold in new security features in Hadoop from Y!
        ●   Kerberos strong authentication
        ●   Data isolation at the HDFS layer
        ●   Secure RPC
        ●   Get HBase working on this substrate bottom up
    ●   Add role based access control (RBAC) to HBase
        ●   Use Kerberos to establish user identity
        ●   Manage a meta table that grants roles to users
        ●   ACLs on tables, possibly also on column families
        ●   Superuser privilege for administration
        ●   Integrate this into HBase top down
        ●   Integrate with HDFS layer security ?
                                       
    ●   Meet efficiently and effectively in the middle
  HBase/Hadoop Group @ Trend
  Multitenancy

      ●   Motiviations
          ●   Multitenant  cloud  platforms  and  hosted  services  based  (in 
              part) on HBase and HDFS
          ●   Multitenancy in the data store for efficiencies of scale
          ●   We need to be able to reason about user isolation and data 
              integrity controls for certification, e.g. SAS­70
Isolation and 
  Integrity                                                            Audit Trace




                                                                  Zookeeper
                        Data Access Layer            Secure RPC

                              HBase

                             HDFS
                 (Hadoop Distributed File System) 
HBase/Hadoop Group @ Trend
Availability

●    Work toward improving the liveness and availability of 
     the system in general
     ●   HDFS
         –   Best practices guidance for operations team
         –   NameNode HA
              ●   HDFS­976
     ●   HBase
         –   "Ride over restart"
               ● Survive transient HDFS unavailability, on the order of 10 minutes


               ● Be more graceful about transient ZooKeeper problems


               ● HBase client should ride over a cluster restart


         –   Make sure rolling restart really is possible with each release
         –   In memory tables
              ●   Really, in memory, take away HDFS, all the data is still available
 ●
     Monitoring and triggers for self­scaling
                                
HBase/Hadoop Group @ Trend
Full System Tests

    ●   EC2 scripts
        ●   End to end full system tests
        ●   Canned application scenarios
        ●   Run small scale tests often
             –   Clusters of 5­10 nodes
        ●   Run large scale tests weekly or monthly
             –   ~20­50 node tests weekly
             –   ~50­100 node tests monthy
    ●   "Hosted HBase"
        ●   Limited  semi­public  beta  of  a  secure  hosted  multitenant 
            HBase installation
        ●   Test our AAA enhancements
        ●   Real users, realistic loads, real operational problems
        ●   Penetration testing
        ●   Inevitable  hardware  or  network  problems  will  test  NN  high 
                                          
            availablity and "ride over restart" enhancements
HBase/Hadoop Group @ Trend
Coprocessors

    ●   Generic extension mechanism
        ●   Region level functional extension
        ●   Plug in framework
        ●   In­process MapReduce framework
    ●   High­level call interface for clients
        ●   Calls addressed to rows or ranges of rows
        ●   Client library resolves to actual locations
        ●   Calls  across  multiple  rows  automatically  split  into  multiple 
            parallelized RPCs
    ●   How they work
        ●   Coprocessors are associated with tables via a table attribute
        ●   Table attribute is a path (e.g. HDFS URI) to jar file
        ●   Jar  is  loaded  into  the  regionservers  when  table  regions  are 
            opened
                                              
        ●   New code is interposed in all region actions via upcalls
HBase/Hadoop Group @ Trend
Coprocessors

    ●   Motiviations
        ●   Currently  extending   HBase       means                     subclassing 
            HRegionServer and HRegionInterface
            –   Resulting extensions are mutually exclusive
        ●   Basic  Hadoop  architectural             principle     of     colocating 
            computation with data
            –   Computation here can be
                 ● Calculation of aggregates over region data: count(), sum(), etc.


                 ● Management of secondary indices


                 ● Dynamic indexing


                 ● More complex data models layered on HBase for scalability


                 ● Query push down with arbitrarily complex predicates




                                             
The End
    ●   Q&A

    ●   Contact info:

          Andrew Purtell
          apurtell@apache.org
          andrew_purtell@trendmicro.com




                                   

				
DOCUMENT INFO
Shared By:
Categories:
Tags:
Stats:
views:1
posted:2/17/2012
language:
pages:26