Wednesday, July 12, 2023

machine learning basics

 exploration avec pandas

voir les infos completes

https://www.youtube.com/watch?v=aLphsae3PSE

code

https://github.com/AssemblyAI/youtube-tutorials/blob/main/Data%20preparation%20and%20model%20training.ipynb

import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None)

I lire le fichier. remplacer les valeurs manquantes (na)
flights = pd.read_csv('flights_sampled.csv', na_values=['-'])

nb de lignes et de colonnes
flights.shape
10 premières lignes
flights.head(10)

îî Quick cleaning


Tip #2 - Only keep columns that are helpful for your goal

Target column is what you want to predict for using an ML model.

on selectionne ses colonnes
flights = flights[['YEAR', 'MONTH', 'DAY',]] donc un subset
on affiche la quantité de données manquantes pour     chacune de colonnes

LLM
- les LLM opensource les plus connus sont llama.cpp , bloom 
bon le standard c'est llama.
on a le framework langchain qui s'impose




experimentations so far.
a partir de hackable 04/23 où les bases sont expliquées pour faire tourner sur des machines  à CPU et non pas GPU limitées en ressources
la methode pour transformer un modèle en plus petit est quantize
le format qui s'impose est gguf
un package permet de télécharger les modeles prets à l'emploi (pas besoin de quantize) depuis le site huggingface
exemple : huggingface-cli download TheBloke/Mistral-7B-Instruct-v0.2-GGUF mistral-7b-instruct-v0.2.Q4_K_M.gguf --local-dir models/7B/ --local-dir-use-symlinks False
ensuite on peut utiliser main pour interroger directement le modele ou server pour créer un serveur api

No comments:

Post a Comment

Ma journée du 01 Décembre 2025

En ce premier jour de décembre, l'heure est venue, De conter une histoire, par les dés soutenue. Quinze dés ont roulé, offrant leur dest...