Etiqueta: scraping

Wikipedia pide a las empresas de IA que usen su API de pago en lugar de hacer scraping

Publicado el 11 noviembre, 2025

Wikipedia, el bastión del conocimiento colaborativo en internet, está tomando una postura más firme frente al auge de la inteligencia artificial generativa. En un movimiento reciente, la Fundación Wikimedia, responsable de mantener este enorme repositorio de información, ha hecho un llamado claro a las empresas de IA: si quieren usar los contenidos de la enciclopedia, deben hacerlo a través de su producto Wikimedia Enterprise, una plataforma de pago diseñada para un uso escalable y responsable. Continúa leyendo «Wikipedia pide a las empresas de IA que usen su API de pago en lugar de hacer scraping»

Reddit demanda a Perplexity: el conflicto por el uso indebido de datos para entrenar IA

Publicado el 29 octubre, 2025

por Natalia Polo

La reciente demanda de Reddit contra la startup Perplexity marca un nuevo episodio en la creciente tensión entre plataformas digitales y empresas de inteligencia artificial. La acusación es clara: Reddit sostiene que Perplexity, junto con otras tres compañías, accedió sin permiso a su enorme base de datos para alimentar su motor de respuestas basado en IA, infringiendo sus medidas de protección.

No se trata del primer pleito legal en esta línea. Reddit ya había iniciado un proceso similar contra Anthropic, otro actor destacado en el desarrollo de modelos de lenguaje, que aún está en curso. La raíz del problema es cada vez más común: el uso masivo y no autorizado de contenidos protegidos por derechos de autor para el entrenamiento de sistemas de IA. Continúa leyendo «Reddit demanda a Perplexity: el conflicto por el uso indebido de datos para entrenar IA»

Cloudflare vs Perplexity: una nueva batalla por el respeto a los datos en la era de la IA

Publicado el 7 agosto, 2025

por Natalia Polo

La tensión entre creadores de contenido y desarrolladores de inteligencia artificial sigue creciendo. Esta vez, Cloudflare ha señalado directamente a Perplexity, una conocida empresa de IA generativa, por ignorar las reglas básicas de convivencia digital: el respeto por el archivo robots.txt. Continúa leyendo «Cloudflare vs Perplexity: una nueva batalla por el respeto a los datos en la era de la IA»

Google ignora bloqueos web y sigue entrenando su IA con contenido restringido

Publicado el 9 mayo, 2025

por Natalia Polo

Google se encuentra nuevamente en el centro de la polémica por su uso de contenidos web para entrenar sus modelos de inteligencia artificial generativa, incluso cuando los propietarios de sitios han pedido explícitamente no participar en este proceso. Lo que parecía una opción para proteger el contenido digital, resulta ser más bien un espejismo, según declaraciones recientes en un juicio federal en Estados Unidos. Continúa leyendo «Google ignora bloqueos web y sigue entrenando su IA con contenido restringido»

Scraping, APIs y la Inteligencia Artificial: Todo lo que necesitas saber para una extracción de datos eficiente

Publicado el 6 enero, 2025

por Juan Diego Polo

La extracción de datos, conocida también como scraping, es una herramienta esencial en el mundo digital. Es como explorar un vasto mercado lleno de información valiosa, desde precios en plataformas de comercio electrónico hasta tendencias en redes sociales. Sin embargo, no es tan simple como «tomar lo que está disponible en la web». Este proceso requiere atención a aspectos legales, técnicos y éticos para hacerlo de manera segura y eficiente. Profundizar en este tema es fundamental para entender cómo aprovechar al máximo las posibilidades que ofrece la tecnología moderna.

Continúa leyendo «Scraping, APIs y la Inteligencia Artificial: Todo lo que necesitas saber para una extracción de datos eficiente»

Meta demanda a una persona por clonar 350.000 perfiles de Instagram

Publicado el 6 julio, 2022

por Juan Diego Polo

Hay muchos programas que se encargan de navegar de forma automática por Internet en busca de datos personales de personas. Es así como se obtienen emails, teléfonos y nombres, información ideal para campañas de spam y ataques diversos.

Ese «raspado de datos» puede transformarse en actividad prácticamente profesional, ya que hay muchas empresas dedicadas solo ha ello. Continúa leyendo «Meta demanda a una persona por clonar 350.000 perfiles de Instagram»