Grass Network usa tu ancho de banda no utilizado de Internet para convertir en un minero de datos, así y junto a la inteligencia colectiva de Reddit, han creado uno de los mayores datasets open-sources generados por la tecnología blockchain de Solana.
En un hito significativo, Grass Network, la innovadora capa de datos de IA construida sobre Solana, ha liberado como software libre un conjunto de datos masivo denominado UpvoteWeb-24-600. Este dataset contiene 600 millones de publicaciones y comentarios principales de Reddit del año 2024, marcando un paso revolucionario hacia la democratización del entrenamiento de IA y subrayando el potencial de la tecnología blockchain para impulsar la innovación en este campo.
Grass Network, un puente entre Solana y la IA
Grass Network se ha posicionado como un proyecto pionero en la intersección de la inteligencia artificial y la tecnología blockchain. El proyecto fue creado por Andrej Radonjic, junto con cinco empleados con antecedentes en Ingeniería de Software y protocolos DeFi.
Para lograr su cometido, Grass Network ha creado toda una red descentralizada que opera sobre Solana. Esta red les permite a las personas que la conforman, vender el ancho de banda de Internet que no están utilizando. Es decir, una persona instala un nodo de Grass y automáticamente, este nodo puede usar parte de su ancho de banda por Internet, con el fin de realizar búsquedas de información y clasificar la misma para alimentar los datasets y operaciones de datos de Grass. En ningún momento se rastrean los datos del usuario o de su navegación, solo se usa tu computador como un minero de datos de Internet.
Así queda muy claro su objetivo principal: la recolección de datos web públicos para transformarlos en conjuntos de datos de IA que los desarrolladores puedan utilizar. De toda esta tarea de clasificación de datos se encarga Sócrates, una herramienta creada por Wynd Labs, y que sirve para extraer datos no estructurados y convertirlos en un formato legible. Sócrates no solo es capaz de extraer la información, sino de anonimizarla usando un proceso de criptografía de conocimiento cero (ZKP), con lo que se busca proteger la identidad de los generadores de esos datos públicos.
Así, la visión de Grass Network es democratizar el acceso a datos de alta calidad para el entrenamiento de IA, nivelando el campo de juego para desarrolladores independientes y pequeñas empresas que compiten con los gigantes tecnológicos. Y los resultados en ese sentido han sido sorprendentes, ya que Grass Network actualmente es capaz de procesar más de 1 TB de datos diariamente, lo que nos da una idea del enorme potencial de esta tecnología.
UpvoteWeb-24-600, un logro sin precedentes
La creación de UpvoteWeb-24-600 representa un logro técnico y logístico impresionante. En tan solo una semana, Grass Network movilizó una red global de 2 millones de nodos para recopilar y procesar esta cantidad masiva de datos.
El conjunto incluye no solo el texto de las publicaciones y comentarios, sino también enlaces a medios y la estructura de las conversaciones (linaje de respuestas). Además, todos los datos han sido meticulosamente anonimizados para proteger la privacidad de los usuarios.
La importancia de este conjunto de datos radica en su volumen, diversidad, actualidad y accesibilidad, proporcionando un recurso invaluable para investigadores, desarrolladores y entusiastas de la IA en todo el mundo. Los desarrolladores de Grass Network han hecho público los resultados del dataset en el mayor repositorio de IA del mundo, HuggingFace y lo han liberado bajo licencia ODC v1.0.
Por una IA más abierta
Gracias a este tratamiento, el conjunto de datos UpvoteWeb-24-600 es un recurso valioso para los desarrolladores que buscan entrenar modelos de IA en datos del mundo real. Y es que este dataset contiene una amplia gama de temas, desde cultura y entretenimiento hasta política y ciencia, lo que permite a los desarrolladores crear modelos de IA que puedan comprender y responder a una variedad de consultas.
Además, el conjunto de datos incluye información sobre la popularidad de las publicaciones y comentarios, lo que puede ser útil para entrenar modelos de IA para predecir la relevancia y el compromiso, todo ello sin poner en riesgo la información de sus creadores.
Por otro lado, la liberación de UpvoteWeb-24-600 como software de código abierto es un paso importante hacia una IA más abierta y accesible. Históricamente, los conjuntos de datos de entrenamiento de IA han sido propiedad de grandes empresas tecnológicas, lo que ha creado una barrera de entrada para los desarrolladores individuales y las pequeñas empresas. Al abrir el código fuente de UpvoteWeb-24-600, Grass Network está democratizando el acceso a los datos de entrenamiento de IA y permitiendo que una comunidad más amplia de desarrolladores contribuya al ecosistema de IA descentralizada.
En última instancia, el éxito de Grass Network y proyectos similares podría catalizar una transformación fundamental en cómo se desarrolla, entrena y despliega la IA, acercándonos a un futuro donde la inteligencia artificial avanzada esté al alcance de todos, impulsada por el poder de la tecnología blockchain y la colaboración global.