Nyheder

Microsoft diskuterer Azure Data Lake og Hadoop integration

Microsoft Diskuterer Azure Data Lake Og Hadoop Integration

Azure Data Lake, som U-SQL, giver brugerne mulighed for at kombinere specialdefineret kode i SQL. Dens skalerbare distribuerede forespørgselsfunktion muliggør effektiv analyse af data, der er gemt på tværs af alle SQL-servere i Azure, Azure SQL Database og Azure SQL Data Warehouse.

  • Azure HDInsight, en administreret Apache Hadoop-klyngetjeneste, der bruger open source-analysemotorer såsom Hive, Spark, HBase og Storm. HDInsight er nu tilgængelig på administrerede klynger på Linux.
  • Microsoft Data Platforms Technical Fellow Raghu Ramakrishnan benyttede lejligheden i dag til beskriver hvordan disse tjenester blev til med en slags åbenhed bag kulisserne.
    Ramakrishnan var en tidligere Yahoo-medarbejder, der arbejdede dybtgående med Hadoop og mange andre open source-værktøjer. Apache Hadoop er en open source-softwareramme distribueret lagring og behandling af meget store datasæt. Det er bygget på den antagelse, at enkelte systemer eller klynger kan fejle, og det skal rammeverket håndtere automatisk.
    Da Ramakrishnan kom til Microsoft, gik han i gang med at integrere Hadoop i Microsofts big data-strategi. Dette var efter at han så Microsofts ingeniører og analytikere produktivt bruge værktøjer som Cosmos og Scope til nemt at administrere, behandle og analysere big data i massive skalerbare miljøer. Han var derefter overbevist om, at han ønskede at kombinere den avancerede produktivitet, han fandt hos Microsoft, med den livlige åbenhed og fleksibilitet, der findes i Hadoop-økosystemet.
    Og det lykkedes. HDInsight, Azure Data Lake, Azure Data Lake Store og flere andre Azure-tjenester tilbyder alle stram Hadoop-integration.
    Det centrale tema i Ramakrishnans anekdoter er Microsofts nyfundne forpligtelse til at bidrage til open source. Udover at være en stor bidragyder til Apache Hadoop-projektet og dets kerneelement, HDFS, er virksomheden fortsat en stor bidragyder til Apaches GARN projekt. Virksomheden er selv aktivt ved at inkorporere Hadoop og YARN i sine big data-workflows. Dette kræver, at Microsoft udvikler YARNs muligheder for bedre at matche virksomhedens behov; tilføjelser, som den derefter kan lede tilbage til open source-fællesskabet.
    Nogle af Microsofts væsentlige bidrag til YARN omfatter:

    • Støtte til arbejdsbesparende forkøbsret (GARN-45).
    • Rayon (YARN-1051), en ressourcereservationskomponent, der leveres med Hadoop 2.6-udgivelsen.
    • Mercury (YARN-2877) og Tetris (YARN-2745), som begge forbedrer YARN-planlæggeren.
    • REEF (Retainable Evaluator Execution Framework) en ramme, der kører oven på YARN, der fremmer maskinlæringsbaserede job.

    Andre bemærkelsesværdige bidrag uden for YARN inkluderer

    • Hardoop på Azure og Windows
    • Hive og ORC
    • OAuth2-understøttelse i WebHDFS
    • Spark Kernel til Jupyter

    Virksomhedens omdrejningspunkt til open source-godhed strækker sig også langt ud over dets cloud-tilbud. Som vi tidligere har rapporteret, har Microsoft open source flere traditionelt proprietære komponenter, såsom CoreCLR , det Rosyln compiler , og Levende forfatter . Det har også skabt helt nye open source-projekter, såsom dets iOS-porteringsværktøj, Facebook SDK, WinJS , og TypeScript .
    Microsofts produkter og tjenester ændrer sig hurtigt til at være så inkluderende som muligt med andre, endda konkurrerende produkter, alt sammen for bedre at kunne imødekomme kundernes unikke behov. Azure Data Lake og dets integration med Hadoop-økosystemet er det seneste bevis på Microsofts nye langsigtede strategi.







    ^