¸üÐÂʱ¼ä:2021Äê06ÔÂ04ÈÕ11ʱ42·Ö À´Ô´:ÀÖÓãµç¾º ä¯ÀÀ´ÎÊý:

ETLÊÇÓ¢ÎÄExtract-Transform-LoadµÄËõд£¬ÓÃÀ´ÃèÊö½«Êý¾Ý´ÓÔ´¶Ë¾¹ý³éÈ¡(extract)¡¢×ª»»(transform)¡¢¼ÓÔØ(load)ÖÁÄ¿µÄ¶ËµÄ¹ý³Ì£¬ËüÄܹ»¶Ô¸÷ÖÖ·Ö²¼µÄ¡¢Òì¹¹µÄÔ´Êý¾Ý(Èç¹ØÏµÊý¾Ý)½øÐгéÈ¡£¬°´ÕÕÔ¤ÏÈÉè¼ÆµÄ¹æÔò½«²»ÍêÕûÊý¾Ý¡¢Öظ´Êý¾ÝÒÔ¼°´íÎóÊý¾ÝµÈ“Ôà"Êý¾ÝÄÚÈݽøÐÐÇåÏ´,µÃµ½·ûºÏÒªÇóµÄ“¸É¾»”Êý¾Ý,²¢¼ÓÔØµ½Êý¾Ý²Ö¿âÖнøÐд洢,ÕâЩ“¸É¾»”Êý¾Ý¾Í³ÉΪÁËÊý¾Ý·ÖÎö¡¢Êý¾ÝÍÚ¾òµÄ»ùʯ¡£
ETLÊÇʵÏÖÉÌÎñÖÇÄÜ(Business Intelligence,BI)µÄºËÐÄ¡£Ò»°ãÇé¿öÏÂ,ETL»á»¨·ÑÕû¸öBIÏîÄ¿Èý·ÖÖ®Ò»µÄʱ¼ä£¬Òò´ËETLÉè¼ÆµÃºÃ»µÖ±½ÓÓ°ÏìBIÏîÄ¿µÄ³É°Ü¡£
ÆóÒµÖг£ÓõÄETLʵÏÖÓжàÖÖ·½Ê½£¬³£¼ûµÄ·½Ê½ÈçÏ¡£
(1)½èÖúETL¹¤¾ß(ÈçPentaho Kettle¡¢InformaticµÈ)¡£
(2)±àдSQLÓï¾ä¡£
(3)½«ETL¹¤¾ßºÍSQLÓï¾ä½áºÏÆðÀ´Ê¹Óá£
ÉÏÊö3ÖÖʵÏÖ·½Ê½¸÷ÓÐÀû±×,ÆäÖеÚ1ÖÖ·½Ê½¿ÉÒÔ¿ìËÙ½¨Á¢ETL¹¤³Ì,ÆÁ±Î¸´ÔӵıàÂëÈÎÎñ¡¢¼Ó¿ìËٶȺͽµµÍÄѶȣ¬µ«ÊÇȱÉÙÁé»îÐÔ:µÚ2ÖÖ·½Ê½Ê¹ÓñàдSQLÓï¾äµÄ·½Ê½ÓÅÕ¼ÊÇÁé»î£¬¿ÉÒÔÌá¸ßETLµÄÔËÐÐЧÂÊ£¬µ«ÊDZàÂ븴ÔÓ,¶Ô¼¼ÊõÒªÇó±È½Ï¸ß;µÚ3ÖÖ·½Ê½×ÛºÏÁËÇ°ÃæÁ½ÖÖ·½·¨µÄÓŵ㣬¿ÉÒÔ¼«´óµØÌá¸ßETLµÄ¿ª·¢ËٶȺÍЧÂÊ¡£
ETLÌåϵ½á¹¹
ETLÖ÷ÒªÊÇÓÃÀ´ÊµÏÖÒì¹¹Êý¾ÝÔ´Êý¾Ý¼¯³ÉµÄ¡£¶àÖÖÊý¾ÝÔ´µÄËùÓÐÔʼÊý¾Ý´ó²¿·Öδ×÷Ð޸ľͱ»ÔØÈËETL,Òò¶ø£¬ÎÞÂÛÊý¾ÝÔ´ÔÚ¹ØÏµÐÍÊý¾Ý¿â¡¢·Ç¹ØÏµÐÍÊý¾Ý¿â£¬»¹ÊÇÔÚÍⲿÎļþ.¼¯³ÉºóµÄÊý¾Ý¶¼½«±»ÖÃÓÚÊý¾Ý¿âµÄÊý¾Ý±í»òÊý¾Ý²Ö¿âµÄά¶È±íÖУ¬ÒÔ±ãÔÚÊý¾Ý¿âÄÚ»òÊý¾Ý²Ö¿âÖÐ×÷½øÒ»²½×ª»»(Òò´Ë,Ò»°ã»á½«×îÖÕµÄÊý¾Ý´æ´¢µ½Êý¾Ý¿â»òÕßÊý¾Ý²Ö¿âÖÐ)¡£ETLµÄÌåϵ½á¹¹ÈçͼÏÂËùʾ¡£

ETLÌåϵ½á¹¹
ÔÚÉÏͼÖÐ,ÈôÊý¾ÝÔ´1ºÍÊý¾ÝÔ´2¾ùΪ¹¦ÄܽÏÇ¿´óµÄDBMS(Êý¾Ý¿â¹ÜÀíϵͳ)£¬Ôò¿ÉÒÔʹÓÃSQLÓï¾äÍê³ÉÒ»²¿·ÖÊý¾ÝÇåÏ´¹¤×÷¡£µ«ÊÇ£¬Èç¹ûÊý¾ÝԴΪÍⲿÎļþ£¬¾ÍÎÞ·¨Ê¹ÓÃSQLÓï¾ä½øÐÐÊý¾ÝÇåÏ´¹¤×÷ÁË£¬Ö»ÄÜÖ±½Ó´ÓÊý¾ÝÔ´ÖгéÈ¡³öÀ´£¬È»ºóÔÚÊý¾Ýת»»µÄʱºò½øÐÐÊý¾ÝÇåÏ´µÄ¹¤×÷¡£Òò´Ë£¬Êý¾Ý²Ö¿âÖеÄÊý¾ÝÇåÏ´¹¤×÷Ö÷Òª»¹ÊÇÔÚÊý¾Ýת»»µÄʱºò½øÐС£ÇåÏ´ºÃµÄÊý¾Ý½«±£´æµ½Ä¿±êÊý¾Ý¿âÖÐ,ÓÃÓÚºóÐøµÄÊý¾Ý·ÖÎö¡¢Êý¾ÝÍÚ¾òÒÔ¼°ÉÌÒµÖÇÄÜ¡£
²ÂÄãϲ»¶£º
Êý¾Ý²Ö¿âµÄ½á¹¹Ïêϸ½éÉÜ
Spark SQL¼Ü¹¹µÄ¹¤×÷ÔÀíºÍ¹¤×÷Á÷³ÌÊÇʲô£¿
´óÊý¾ÝHadoopÉú̬Ȧ°üº¬ÄÄЩ×Óϵͳ£¿
ÀÖÓãµç¾º¸ß¼¶python+´óÊý¾ÝÅàѵ¿Î³Ì
±±¾©Ð£Çø