2 2. Modelo de dados
Ádler Neves edited this page 2017-06-02 01:19:16 -03:00

Para acomodar o dataset MovieLens de 20 milhões de avaliações de filmes, modelamos um banco relacional para armazenar as informações contidas no CSV e consultá-las de maneira mais flexível. O modelo lógico é:

modelo lógico da persistência

Após alimentado com os dados do dataset de 20 milhões de avaliações, no banco de dados SQLite ocupa 1.3 GB em disco e o PHPLiteAdmin apresenta as seguintes estatísticas a respeito da base em questão:

estatísticas de povoamento da base de dados

Dado o custo de armazenamento para o pré-processamento, tal base de 20 milhões de avaliações de filmes foi substituída por uma versão menor, com 100 mil avaliações, ocupando 4.9 MB em disco e o PHPLiteAdmin apresenta as seguintes estatísticas a respeito da base em questão:

estatísticas de povoamento da base de dados menor