exploration avec pandas
voir les infos completes
https://www.youtube.com/watch?v=aLphsae3PSE
code
import pandas as pd import numpy as np pd.set_option('display.max_columns', None)
I lire le fichier. remplacer les valeurs manquantes (na)flights = pd.read_csv('flights_sampled.csv', na_values=['-'])nb de lignes et de colonnesflights.shape10 premières lignesflights.head(10)îî Quick cleaning
Tip #2 - Only keep columns that are helpful for your goal
Target column is what you want to predict for using an ML model.
on selectionne ses colonnesflights = flights[['YEAR', 'MONTH', 'DAY',]] donc un subseton affiche la quantité de données manquantes pour chacune de colonnesLLM- les LLM opensource les plus connus sont llama.cpp , bloombon le standard c'est llama.on a le framework langchain qui s'imposeexperimentations so far.a partir de hackable 04/23 où les bases sont expliquées pour faire tourner sur des machines à CPU et non pas GPU limitées en ressourcesla methode pour transformer un modèle en plus petit est quantizele format qui s'impose est ggufun package permet de télécharger les modeles prets à l'emploi (pas besoin de quantize) depuis le site huggingfaceexemple : huggingface-cli download TheBloke/Mistral-7B-Instruct-v0.2-GGUF mistral-7b-instruct-v0.2.Q4_K_M.gguf --local-dir models/7B/ --local-dir-use-symlinks Falseensuite on peut utiliser main pour interroger directement le modele ou server pour créer un serveur api
No comments:
Post a Comment