Uncategorized

Buscadores, grandes soluciones y grandes problemas

Como linea base para este Post necesitamos poner en común que es un buscador, elemento central en el ecosistema actual de Internet, pero que no muchos conocen que es, ni conocen su funcionamiento.

Las potencia de los buscadores han cambiado radicalmente las costumbres de los usuarios de Internet. En general se utiliza poco las URL, la mayoría de los usuarios, hoy en día, se limitan a poner términos en un buscador, normalmente ubicado como página de inicio de sus navegadores.

Esta costumbre, ha dado lugar a un nuevo ardid, que es pagar campañas publicitarias a los buscadores para hacerse pasar por un sitio legitimo, apareciendo como un anuncio primero en la lista de resultados del buscador, entonces el usuario ignoto, si no verifica que es un anuncio, ingresa al sitio apócrifo, en donde el autor se hacen de las credenciales de la víctima, en el más leve de los casos.

Esto sería una tipo de phising, pero que se materializa a través de una campaña de publicidad pagada a un buscador dado. Antes de continuar les adelanto la postura de los buscadores sobre este tema “nosotros no podemos controlar las publicaciones, mucho de nuestro negocio se base en el automatismo y no sería rentable poner a una persona a controlar los avisos”.

Querido lector, permítame dudar de esto, existen los métodos automáticos de moderación, de todas maneras vamos dejar el tema de la moderación para otro post y avancemos sobre los buscadores.

Entonces ya no hay que tomar a los buscadores como un aplicación más de Internet, dado que ellos tienen un rol central para el usuario promedio y no deben tratarse a la ligera las responsabilidades que les caben a estos, siendo componentes tan importante en la Wide World Web.

Ahora bien ¿Que es un buscador?, un buscador no es otra cosa que varios sistemas, que a través de bots (programas automáticos) almacenan en grandes bases de datos parte del contendido de internet, para indexarlo, y dejarlo accesible para los usuarios. Hablamos de parte del contenido, y más allá de las restricciones físicas de almacenamiento que pueda tener un buscador dado, existe gran cantidad de contenido de internet que no accesible a los bots, por lo cual no es visible para los buscadores. Tan central es esta definición que dio lugar a la creación en 2009 de los términos internet profunda (deep web) y superficial.

Continuando y para tener la imagen completa, debemos preguntarnos ¿Cual es la motivo por el cual una empresa, se va a tomar el hercúleo trabajo de recabar información de “toda” internet, ordenarla y dejarla disponible a los usuarios?, la respuesta es muy simple, el motivo es el sencillo y poderoso lucro, la posibilidad de vender publicidad. El ordenamiento y posicionamiento de un link en un buscador se monetiza. Que nuestro link aparezca en una búsqueda antes que el de nuestro competidor comercial se traduce en más ventas, entonces los buscadores lucran con esta realidad vendiendo el servicio de posicionamiento, entre otros.

Si bien en el párrafo anterior está incluido el material multimedia, no esta de mas aclarar que los buscadores toman las imagines, vídeos y en algunos casos archivos de audio, publicados en Internet, los procesan hacen copias reducidas (thumbnails) y las almacenan y así como el resto del contenido lo dejan disponible para el usuario, bajo un criterio dado.

De estas sencillas lineas podemos extractar algunas realidades que pueden generar algún tipo de debate y jurisprudencia contradictoria. De aquí en adelante mas allá de las sitas no voy a hacer juicio de valor sobre las mismas y voy a dejar a juicio del lector las implicancias de cada una de las frases que detallo a continuación:

Como hemos dicho, los buscadores tiene como soporte una base de datos, es decir son alcanzados por las reglamentación asociadas a la preservación de información y datos personales (Derecho al olvido, Datos Personales, etc.)

Existe procesamiento de datos, la información recolectada es catalogadas, ordenada y es accedida con algoritmos específicos, en el caso de Google “PageRank, entonces los buscadores son responsables en toda instancia, sobre la accesibilidad de información y sus implicancias.

Parece una verdad de perogrullo, pero parece necesario dejar claro que los buscadores almacenan contenido en los cache de la plataforma. ¿Sino como piensan que pueden ordenar y dejar disponible contenido para los usuarios?

Hoy en día existen muchas técnicas que permiten el reconocimiento de imágenes, que ya están siendo utilizados para detectar imágenes de algún tipo, por ejemplo pornografía infantil. Con lo cual, los buscadores (empresas tecnológicas de vanguardia en general), tienen a su alcance la herramienta para procesas e identificar imágenes con su derivada responsabilidad.

Siempre desde el punto de vista de posibilidad técnica, es falaz pensar que para los buscadores es transparente (incapacidad de reconocimiento) el contenido que publican, toda vez que procesan orden y modifican el contenido que captan en internet, con el fin de obtener un lucro, con el fin de vender publicidad. Esta publicidad se hace muestra en base al contexto, preferencias y costumbre del usuario que busca información.

Estas mismas responsabilidades les caben a la redes sociales, la cuales generalmente están provistas de buscadores, ya no sobre todo el contenido publicado en internet, sino sobre los contenidos publicados por sus usuarios, en sus perfiles, grupos y páginas tanto abiertos como cerrados.

Hay iniciativas para la prevención del delito que ya utilizan tecnologías aplicables que muestran la opacidad de los buscadores a la manejar la información. Por ejemplo PhotoDNA, que es utilizada para detectar y prevenir la distribución de pornografía infantil. La tecnología PhotoDNA fue desarrollada por Microsoft, que en 2009 la donó al propio NCMEC (National Center for Missing and Exploited Children) para que cualquier compañía tecnológica pueda usarla de forma totalmente gratuita.

Pero ¿cómo funciona PhotoDNA? . Una imagen en Internet puede transformarse de manera sencilla: o se cambia la extensión, o el tamaño o incluso se modifican ligeramente los colores. PhotoDNA es capaz de reconocer todos estos pequeños cambios en una misma imagen, manteniendo el mismo identificador. El proceso que sigue esta tecnología es el siguiente:

1) La imagen analizada se convierte a escala de grises, modificando también el tamaño hasta que encaje con el tamaño por defecto establecido para el proceso.
2) Dividen la imagen (ya con tamaño modificado y en escala de grises) en cuadrados más pequeños.
3) Para cada cuadrado calculan distintos parámetros, como la variación del tono de negro de cada pixel.
4) Con dichos valores se crea un histograma.
5) Estos valores numéricos, finalmente, se convierten en la firma única o que hash se asigna a cada imagen.

Ya en 2006 el Google anunciaba su alianza en la Coalición de la Tecnología impulsada por el NCMEC. La tecnología de detección, eso sí, no comenzó a usarse hasta 2008, algo que no es un secreto y el propio Google reconoce no solo en el contenido indexado sino también los correos de los usuarios de su servicio Gmail. Cosa similar hace Microsoft con sus productos Hotmail y Outlook.com

Pero ¿puede Google legalmente realizar este análisis? En los términos de uso, esos que nadie se lee pero todo el mundo acepta, contemplan la posibilidad de «analizar tu contenido». De hecho, ya lo hacen para ofrecerte publicidad personalizada cada vez que accedes a tu bandeja de entrada. También incluyen una cláusula específica en la que se menciona la «Seguridad de los niños».

«Google tiene una política de tolerancia cero contra las imágenes de abuso sexual a niños. Si descubrimos dicho contenido, avisaremos a las autoridades y podríamos tomar acciones disciplinarias, como el cierre de la cuenta de aquellos involucrados.»

Como comencé este Post lo voy a terminar los buscadores, son una gran solución, que ha potenciado mucho Internet y han democratizado el acceso a la información publicada, pero han puesta a la luz grandes problemas , que siempre estuvieron ahí, en forma latente, pero se cristalizaron al hacerse disponible para el publico general, el catalizador de los buscadores.