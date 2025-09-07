Por otra parte, una investigación A Common Pool of Privacy Problems: Legal and Technical Lessons from a Large-Scale Web-Scraped Machine Learning Dataset exhaustiva sobre los grandes conjuntos de datos de internet, como DataComp CommonPool, expone una problemática igualmente grave, aunque con una metodología de recolección diferente: el web scraping a gran escala e indiscriminado para entrenar sistemas de IA. A pesar de los esfuerzos por anonimizar la información, el estudio encontró una “significativa presencia” de Información Personal Identificable (PII). Se hallaron ejemplos concretos como números de tarjetas de crédito, de pasaporte, licencias de conducir, certificados de nacimiento y currículums (se estima en al menos 142.000 imágenes de currículums de individuos con presencia pública en línea). Aún más, se identificaron datos sociodemográficos vinculados a nombres y aproximadamente 102 millones de imágenes de rostros humanos reales que permanecieron sin ser difuminados, a pesar de los mecanismos de ofuscación implementados por defecto. La investigación objeta la premisa de que la información “públicamente disponible” en internet está exenta de las leyes de privacidad, argumentando que esta visión simplista ignora el contexto original de la divulgación y las expectativas razonables de privacidad de los individuos. Esta práctica masiva de recopilación contraviene principios fundamentales de protección de datos como la minimización y la limitación del propósito. El estudio sugiere que una regulación más efectiva debería enfocarse en la fuente de los datos (”la raíz”) en lugar de abordar los problemas en cada modelo de IA individualmente (”las hojas”), para mitigar los riesgos de privacidad a gran escala. Esto es crucial, ya que, aunque DataComp CommonPool fue diseñado para investigación, su licencia CC-BY-4.0 no prohíbe el uso comercial de los modelos entrenados con estos datos, y su precursor, LAION-5B, ya se ha utilizado para entrenar modelos como Midjourney y Stable Diffusion.