banner
Hogar / Noticias / Cloudera traza un camino hacia la IA responsable a escala
Noticias

Cloudera traza un camino hacia la IA responsable a escala

Oct 19, 2023Oct 19, 2023

Como analista, he estado observando Cloudera durante varios años y he opinado extensamente. Cloudera resuelve los desafíos de gestión de datos en nubes públicas y privadas, lo que permite a los clientes gestionar y aprovechar el valor de los datos. Cloudera ha sido el líder de Big Data durante más de una década, con 25 exabytes de datos bajo administración y utilizados por nueve de cada diez de las empresas globales más grandes en cualquier industria determinada.

Cloudera ha evolucionado a lo largo de los años, Cloudera 1.0 se centró en crear una plataforma de datos empresariales de código abierto, Cloudera 2.0 unió a Hortonworks y Cloudera para acelerar el camino hacia la nube híbrida, y Cloudera 3.0 creó la primera plataforma de datos multinube verdaderamente híbrida. . En este artículo, explicaré por qué Cloudera Data Platform (CDP) está bien posicionada para el nuevo mundo de la IA empresarial.

¿Qué puede salir mal?

La IA generativa utiliza algoritmos llamados modelos de lenguaje extenso (LLM) para crear contenido nuevo en forma de texto, imágenes, audio o código utilizando instrucciones en lenguaje natural.

Las herramientas de inteligencia artificial generativa, como ChatGPT, que acapara los titulares, utilizan grandes cantidades de datos de Internet con calidad de datos, contenido, propiedad y privacidad dudosos. Como muchos de ustedes han experimentado, incluido un abogado desafortunado recientemente, ChatGPT presentará de manera convincente resultados veraces junto con información errónea total, dejando que el usuario separe los hechos de la ficción.

Claramente, en un entorno empresarial, esto es inaceptable. Para las empresas, el éxito de la IA generativa y los LLM asociados dependen de la calidad y confiabilidad de los datos de capacitación.

Nube híbrida: todos los datos están listos para la IA empresarial

En CDP, Cloudera ha entregado la visión híbrida con un único plano de control que gestiona un marco común de seguridad y gobernanza en toda la plataforma y todos los servicios de datos. La plataforma CDP puede mover cargas de trabajo, datos y metadatos asociados bidireccionalmente a través de nubes públicas y privadas.

CDP Open Data Lakehouse proporciona los "datos básicos" con seguridad, gobernanza y el contexto empresarial para implementar con modelos básicos en las instalaciones o en la nube.

Confiar en la IA comienza con confiar en los datos

Para que la IA empresarial tenga éxito, debe haber confianza en los resultados. La confianza es confiar en los datos subyacentes utilizados para entrenar los modelos. Como parte de la arquitectura CDP, Shared Data Experience (SDX) permite compartir seguridad, linaje y gobernanza en todos los análisis y nubes públicas y privadas.

SDX utiliza dos proyectos de código abierto, Apache Ranger, para definir, administrar y gestionar políticas de seguridad y Apache Atlas, para la gestión y gobierno de metadatos, para construir, clasificar y gobernar un catálogo de activos.

SDX incluye un catálogo de datos para administrar y descubrir todos los activos de datos. Los datos se perfilan y mejoran con metadatos enriquecidos, incluido el contexto operativo, social y comercial, creando activos de datos confiables y reutilizables y haciéndolos reconocibles.

CDP tiene la funcionalidad para habilitar la seguridad, el gobierno y el cumplimiento holísticos en todo el ciclo de vida de los datos, incluidos los modelos de aprendizaje automático en entornos de producción.

La clave aquí es la capacidad de explicar la generación del modelo, los datos utilizados para entrenar el modelo y los orígenes de los datos: una fuente de datos precisa y completa para el linaje del entorno de producción.

Versión BYO de GPT y modelos básicos

Muchos clientes ya usan capacidades de ML como parte de CDP. El servicio de aprendizaje automático de Cloudera está bien establecido y cubre todo el ciclo de vida de ML, desde la ciencia de datos experimental hasta el entrenamiento y la implementación de modelos. Cloudera proporciona una biblioteca de prototipos de aprendizaje automático aplicado (AMP) de extremo a extremo para ayudar a los clientes a comenzar a desarrollar aplicaciones.

En el reciente evento de analistas Six Five Summit, Cloudera anunció LLM Chatbot Augmented with Enterprise Data como modelo para la IA generativa de grandes modelos de lenguaje en respuesta a los clientes que desean crear una versión de GPT y modelos básicos internamente en lugar de entrenar datos en complementos de API pública.

Con Cloudera CDP LLM, AMP, los clientes pueden crear aplicaciones de inteligencia artificial impulsadas por cualquier LLM de código abierto con datos patentados, todo alojado internamente en la empresa. El AMP es gratuito en la nube pública y privada de CDP.

Bajo las sábanas, Cloudera está utilizando dependencias de Python, con modelos de código abierto del socio Hugging Face, una base de datos vectorial de código abierto para la búsqueda semántica, inyectando la base de conocimiento empresarial en la base de datos vectorial y creando y ejecutando una aplicación web de Python en la parte superior. Cloudera usó modelos H2O, NovusDB, documentos CML y Gradio para la interfaz de la interfaz de usuario. Todo es personalizable y conectable a un caso de uso específico, utilizando cualquier modelo, datos, base de datos y marco de aplicación. Con este AMP y CML, cualquier desarrollador ahora tiene las herramientas para crear y alojar aplicaciones LLM de código abierto para la empresa.

Terminando

Cloudera es único en ofrecer un lago de datos abierto híbrido en nubes públicas y privadas a escala. CDP es una plataforma integrada que proporciona las capacidades de un almacén de datos y un lago de datos.

Esta plataforma única proporciona la base para la inteligencia empresarial, el aprendizaje automático y las soluciones de inteligencia artificial, al tiempo que aprovecha las innovaciones de código abierto como Iceberg, Airflow y Yunikorn. CDP también brinda la flexibilidad de un modelo híbrido de múltiples nubes para implementar en nubes públicas y privadas.

En el nuevo mundo de la IA empresarial, CDP permite la IA empresarial en todos los datos disponibles utilizando modelos básicos y LLM para aplicaciones generativas basadas en IA de una manera segura, confiable y responsable.

Como director de datos (CDO), necesita una capacidad completa del ciclo de vida de los datos, lo que significa almacenar datos de manera eficiente y resistente, canalizar y agregar datos en casas de lagos de datos y aplicar algoritmos ML e IA para descubrir información procesable para las unidades comerciales. Podría reunir un grupo de las mejores herramientas de su clase y luchar para improvisarlas, pero buena suerte para lograr seguridad, linaje y gobierno compartidos. Cloudera CDP le brinda todo lo que necesita de inmediato y debe estar en su lista de preseleccionados.

Moor Insights & Strategy brinda o ha brindado servicios pagos a empresas de tecnología, como todas las firmas de analistas de la industria tecnológica y de investigación. Estos servicios incluyen investigación, análisis, asesoramiento, consultoría, evaluación comparativa, emparejamiento de adquisiciones y patrocinios de video y conferencias. La empresa ha tenido o tiene actualmente relaciones comerciales pagas con 8×8, Accenture, A10 Networks, Advanced Micro Devices, Amazon, Amazon Web Services, Ambient Scientific, Ampere Computing, Anuta Networks, Applied Brain Research, Applied Micro, Apstra, Arm, Aruba Networks (ahora HPE), Atom Computing, AT&T, Aura, Automation Anywhere, AWS, A-10 Strategies, Bitfusion, Blaize, Box, Broadcom, C3.AI, Calix, Cadence Systems, Campfire, Cisco Systems, Clear Software, Cloudera , Clumio, Cohesity, Cognitive Systems, CompuCom, Cradlepoint, CyberArk, Dell, Dell EMC, Dell Technologies, Diablo Technologies, Dialogue Group, Digital Optics, Dreamium Labs, D-Wave, Echelon, Ericsson, Extreme Networks, Five9, Flex, Foundries .io, Foxconn, Frame (ahora VMware), Fujitsu, Gen Z Consortium, Glue Networks, GlobalFoundries, Revolve (ahora Google), Google Cloud, Graphcore, Groq, Hiregenics, Hotwire Global, HP Inc., Hewlett Packard Enterprise, Honeywell, Huawei Technologies, HYCU, IBM, Infinidat, Infoblox, Infosys, Inseego, IonQ, IonVR, Inseego, Infosys, Infiot, Intel, Interdigital, Jabil Circuit, Juniper Networks, Keysight, Konica Minolta, Lattice Semiconductor, Lenovo, Linux Foundation, Lightbits Labs , LogicMonitor, LoRa Alliance, Luminar, MapBox, Marvell Technology, Mavenir, Marseille Inc, Mayfair Equity, Meraki (Cisco), Merck KGaA, Mesophere, Micron Technology, Microsoft, MiTEL, Mojo Networks, MongoDB, Multefire Alliance, National Instruments, Neat , NetApp, Nightwatch, NOKIA, Nortek, Novumind, NVIDIA, Nutanix, Nuvia (ahora Qualcomm), NXP, onsemi, ONUG, OpenStack Foundation, Oracle, Palo Alto Networks, Panasas, Peraso, Pexip, Pixelworks, Plume Design, PlusAI, Poly (antes Plantronics), Portworx, Pure Storage, Qualcomm, Quantinuum, Rackspace, Rambus, Rayvolt E-Bikes, Red Hat, Renesas, Residio, Samsung Electronics, Samsung Semi, SAP, SAS, Scale Computing, Schneider Electric, SiFive, Silver Peak (ahora Aruba-HPE), SkyWorks, SONY Optical Storage, Splunk, Springpath (ahora Cisco), Spirent, Splunk, Sprint (ahora T-Mobile), Stratus Technologies, Symantec, Synaptics, Syniverse, Synopsys, Tanium, Telesign, TE Connectivity , TensTorrent, Tobii Technology, Teradata, T-Mobile, Treasure Data, Twitter, Unity Technologies, UiPath, Verizon Communications, VAST Data, Ventana Micro Systems, Vidyo, VMware, Wave Computing, Wellsmith, Xilinx, Zayo, Zebra, Zededa, Zendesk , Zoho, Zoom y Zscaler. El fundador, director ejecutivo y analista jefe de Moor Insights & Strategy, Patrick Moorhead, es inversor en dMY Technology Group Inc. VI, Fivestone Partners, Frore Systems, Groq, MemryX, Movandi y Ventana Micro., MemryX, Movandi y Ventana Micro.

¿Qué puede salir mal? Nube híbrida: todos los datos están listos para la IA empresarial Confiar en la IA comienza con confiar en los datos Versión BYO de GPT y modelos básicos Conclusión