Yahoo öppnar 13.5TB maskininlärning dataset för akademisk forskning

AI tekniker blir en del av varje dag computing: här är hur de används för att hjälpa återförsäljare online hänga med i konkurrensen.

Socialt företagande, Linkedin avslöjar sin nya blogging plattform, stora datamängder, är detta en ålder av Big OLAP,? Big Data Analytics, DataRobot syftar till att automatisera lågt hängande frukt uppgifter vetenskap, stora datamängder, MapR grundare John Schroeder steg ner, COO för att ersätta

Yahoo lossning vad det skryter att vara den största någonsin maskininlärning dataset göras allmänt tillgänglig för den akademiska forskningsvärlden.

Suju Rajan, forskningschef vid Yahoo Labs, som utarbetats i förberedda anmärkningar som sökföretaget publicerar dataset med målet att främja innovation – men framför allt när det gäller hur data från maskininlärningsteknik kan vändas och användas för nya ändamål .

“Många akademiska forskare och data forskare inte har tillgång till verkligt storskaliga datamängder eftersom det är traditionellt ett privilegium reserverat för stora företag,” Rajan anmärkte.

Dubbat Yahoo News Feed dataset, är samlingen faktiskt bara ett urval uppsättning anonymiserade användarinteraktioner från cirka 20 miljoner användare ställer in en mängd Yahoo egenskaper, inklusive Yahoo Finance, Sport, filmer, Real Estate och den allmänna hemsida samt News .

Vid 13,5 terabyte (eller 13.500 gigabyte) okomprimerad data, poolen omfattar en sträng av mer än 110 miljarder händelser mellan februari och maj 2015 ensam.

Upprepar användardata är anonyma, bland de mätvärden som är tillgängliga för forskare inkluderar åldersgrupp, kön, och generaliserade geografiska data tillsammans med tidsstämplar, artiklar, titlar, sammanfattningar och nyckelfraser för artiklar och annat nås innehåll ovanpå vilken enhet eller kanal var används för visning.

Yahoo har redan värvat några akademiska partners att utnyttja datamängden.

Jacobs School of Engineering vid University of California, planerar San Diego att använda data med hopp om att förbättra pågående forskning inom maskininlärning, artificiell intelligens och stora dataapplikationer.

“Tillgång till dataset av denna storlek är viktigt att utforma och utveckla maskininlärning algoritmer och teknik som skalar verkligen” stora “uppgifter”, förklarar Gert Lanckriet, professor vid Institutionen för elektriska och datorteknik vid UC San Diego, i torsdagens tillkännagivande .

Forskare kan få tillgång till datamängden genom online Yahoo Labs Webscope bibliotek för sitt datadelning program.

Linkedin avslöjar sin nya blogging plattform

Är detta en ålder av Big OLAP?

DataRobot syftar till att automatisera lågt hängande frukt uppgifter vetenskap

MapR grundare John Schroeder steg ner, COO för att ersätta