Cronica

Mundo completo de noticias

Amazon está investigando desconcertado por acusaciones de abuso de scraping
Tecnología

Amazon está investigando desconcertado por acusaciones de abuso de scraping

La división de nube de Amazon ha iniciado una investigación sobre Perplexity AI. La pregunta es si la startup de investigación de IA está violando las reglas de los servicios web de Amazon al copiar sitios que intentaron impedir que lo hiciera, según se enteró WIRED.

Un portavoz de AWS, que habló con WIRED bajo condición de no ser identificado, confirmó la investigación de la compañía sobre Perplexity. WIRED ya había descubierto que la startup, que apoyo del fondo de la familia Jeff Bezos y Nvidia, y recientemente fue valorado de 3 mil millones de dólares – parece depender de contenido de sitios copiados que prohibían el acceso a través del Protocolo de Exclusión de Robots, un estándar web común. Si bien el Protocolo de exclusión voluntaria de robots no es legalmente vinculante, los términos de servicio generalmente sí lo son.

El protocolo de exclusión de robots es un estándar web de décadas de antigüedad que implica colocar un archivo de texto simple (como wired.com/robots.txt) en un dominio para indicar a qué páginas no deben acceder los robots y rastreadores automatizados. Aunque las empresas que utilizan scrapers pueden optar por ignorar este protocolo, la mayoría lo ha respetado tradicionalmente. El portavoz de Amazon le dijo a WIRED que los clientes de AWS deben cumplir con el estándar robots.txt al rastrear sitios web.

«Los términos de servicio de AWS prohíben a los clientes utilizar nuestros servicios para cualquier actividad ilegal, y nuestros clientes son responsables de cumplir con nuestros términos y todas las leyes aplicables», dijo el portavoz en un comunicado.

READ  Twitter elimina la opción de línea de tiempo cronológica por defecto

Continúa el escrutinio de las prácticas de Perplexity un informe del 11 de junio de Forbes quien acusó a la startup de robar al menos uno de sus artículos. Las investigaciones de WIRED confirmaron la práctica y encontraron más evidencia de abuso y plagio por parte de sistemas vinculados al chatbot de búsqueda impulsado por inteligencia artificial de Perplexity. Los ingenieros de Condé Nast, la empresa matriz de WIRED, bloquean el rastreador de Perplexity en todos sus sitios mediante un archivo robots.txt. Pero WIRED descubrió que la empresa tenía acceso a un servidor utilizando una dirección IP no publicada (44.221.181.252) que visitó las propiedades de Condé Nast al menos cientos de veces durante los últimos tres meses, aparentemente para rastrear sitios web de Condé Nast.

La máquina asociada con Perplexity parece estar involucrada en un seguimiento generalizado de sitios de noticias que prohíben a los robots acceder a su contenido. Los portavoces de The Guardian, Forbes y The New York Times también dicen que detectaron la dirección IP visitando repetidamente sus servidores.

WIRED rastreó la dirección IP hasta una máquina virtual conocida como instancia de Elastic Compute Cloud (EC2) alojada en AWS, que comenzó su investigación después de que le preguntamos si el uso de la infraestructura de AWS para rastrear sitios web que lo prohibían violaba los términos de servicio de la empresa.

La semana pasada, el director ejecutivo de Perplexity, Aravind Srinivas, respondió a la investigación de WIRED diciendo primero que las preguntas que le hicimos a la empresa «reflejan un malentendido profundo y fundamental sobre cómo funcionan Perplexity e Internet». Srinivas entonces le dijo a Fast Company que la dirección IP secreta que WIRED observó raspando los sitios de Condé Nast y un sitio de prueba que creamos era operada por una empresa externa que realiza servicios de indexación y rastreo web. Se negó a nombrar la empresa, citando un acuerdo de confidencialidad. Cuando se le preguntó si le diría al tercero que dejara de rastrear a WIRED, Srinivas respondió: «Es complicado».

READ  Los mejores teléfonos Android para comprar en 2020

DEJA UNA RESPUESTA

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

"Introvertido. Solucionador de problemas. Aficionado total a la cultura pop. Estudiante independiente. Creador".