Gemini API更新：PDF多模态理解能力完整Streamlit应用代码分享

gemini2025-05-06 16:47:41579

先做个广告：需要购买Gemini帐号或代充值Gemini会员，请加微信：gptchongzhi

引言

Google最新发布关于Gemini的更新有2点比较吸引我，一是Gemini 1.5 Flash大降价，二是Gemini API 和 AI Studio 现在支持通过文本和视觉双重方式理解 PDF 内容。

推荐使用Gemini中文版,国内可直接访问：https://ai.gpt86.top

如果你的PDF包含图表、图像或其他非文本的视觉内容，该模型会使用原生的多模态能力来处理PDF。

我把编写的调用Gemini API的Streamlit应用完整代码放在文章最后，支持视频、音频、图片、PDF、文字对话。

完整代码

import os
import time
import streamlit as st
import google.generativeai as genai
from dotenv import load_dotenv
import tempfile
from PIL import Image

# Load environment variables
load_dotenv()

# Configure Gemini API
genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))

def upload_to_gemini(file, mime_type=None):
    """Uploads the given file to Gemini."""
    with tempfile.NamedTemporaryFile(delete=False, suffix=f".{file.name.split('.')[-1]}") as tmp_file:
        tmp_file.write(file.getvalue())
        tmp_file_path = tmp_file.name

    try:
        gemini_file = genai.upload_file(tmp_file_path, mime_type=mime_type)
        st.success(f"Uploaded file '{gemini_file.display_name}' as: {gemini_file.uri}")
        return gemini_file
    finally:
        os.unlink(tmp_file_path)

def wait_for_file_processing(file):
    """Wait for the file to be processed by Gemini."""
    max_attempts = 30
    for attempt in range(max_attempts):
        file_info = genai.get_file(file.name)
        if file_info.state.name == "ACTIVE":
            return True
        elif file_info.state.name == "FAILED":
            st.error(f"File processing failed: {file.name}")
            return False
        time.sleep(2)
    st.error(f"File processing timed out: {file.name}")
    return False

def get_gemini_model(model_name):
    """Creates and returns the Gemini model."""
    generation_config = {
        "temperature": 0.7,
        "top_p": 1,
        "top_k": 32,
        "max_output_tokens": 8192,
    }
    safety_settings = [
        {
            "category": "HARM_CATEGORY_HARASSMENT",
            "threshold": "BLOCK_NONE"
        },
        {
            "category": "HARM_CATEGORY_HATE_SPEECH",
            "threshold": "BLOCK_NONE"
        },
        {
            "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
            "threshold": "BLOCK_NONE"
        },
        {
            "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
            "threshold": "BLOCK_NONE"
        },
    ]
    return genai.GenerativeModel(model_name=model_name, 
                                 generation_config=generation_config,
                                 safety_settings=safety_settings)

def process_gemini_response(response):
    """Process the Gemini response and handle potential errors."""
    if not response.candidates:
        for rating in response.prompt_feedback.safety_ratings:
            if rating.probability != "NEGLIGIBLE":
                return f"Response blocked due to {rating.category} with probability {rating.probability}"
        return "No response generated. Please try a different prompt."
    
    if response.candidates[0].finish_reason == "SAFETY":
        return "Response was blocked due to safety concerns. Please try a different prompt."
    
    return response.text

def main():
    st.title("Gemini AI Chat with Optional File Upload")

    # Initialize session state
    if "messages" not in st.session_state:
        st.session_state.messages = []
    if "uploaded_file" not in st.session_state:
        st.session_state.uploaded_file = None
    if "file_uploader_key" not in st.session_state:
        st.session_state.file_uploader_key = 0
    if "file_processed" not in st.session_state:
        st.session_state.file_processed = False

    # Sidebar
    st.sidebar.title("对话控制")
    
    # New conversation button in sidebar
    if st.sidebar.button("开启新对话"):
        st.session_state.messages = []
        st.session_state.uploaded_file = None
        st.session_state.file_uploader_key += 1
        st.session_state.file_processed = False
        st.rerun()

    # Model selection
    model_name = st.selectbox("选择Gemini模型", ["gemini-1.5-flash", "gemini-1.5-pro-exp-0801"])

    # File upload
    uploaded_file = st.file_uploader("选择要上传的文件、图片、视频或音频（可选）", 
                                     type=["pdf", "txt", "png", "jpg", "jpeg", "mp4", "mp3", "wav"],
                                     key=f"file_uploader_{st.session_state.file_uploader_key}")
    
    if uploaded_file and (not st.session_state.uploaded_file or uploaded_file.name != st.session_state.uploaded_file.name):
        with st.spinner("正在上传并处理文件..."):
            mime_type = uploaded_file.type
            if mime_type.startswith('image'):
                st.image(uploaded_file, caption="上传的图片", use_column_width=True)
            elif mime_type.startswith('audio'):
                st.audio(uploaded_file, format='audio/mp3')
            
            file = upload_to_gemini(uploaded_file, mime_type=mime_type)
            if wait_for_file_processing(file):
                st.session_state.uploaded_file = file
                st.session_state.file_processed = True
                st.success("文件已准备就绪，可以开始分析！")
            else:
                st.error("文件处理失败。请重试。")
                st.session_state.uploaded_file = None
                st.session_state.file_processed = False

    # Display chat messages
    for message in st.session_state.messages:
        with st.chat_message(message["role"]):
            st.markdown(message["content"])

    # Chat input
    if prompt := st.chat_input("请输入您的问题或提示词"):
        st.session_state.messages.append({"role": "user", "content": prompt})
        with st.chat_message("user"):
            st.markdown(prompt)

        model = get_gemini_model(model_name)
        with st.chat_message("assistant"):
            message_placeholder = st.empty()
            full_response = ""
            
            try:
                if st.session_state.uploaded_file and st.session_state.file_processed:
                    response = model.generate_content([st.session_state.uploaded_file, prompt], stream=True)
                else:
                    response = model.generate_content(prompt, stream=True)
                
                for chunk in response:
                    chunk_text = chunk.text
                    full_response += chunk_text
                    message_placeholder.markdown(full_response)
                
            except Exception as e:
                st.error(f"发生错误: {str(e)}")
                full_response = "抱歉,处理您的请求时出现了错误。请重试或开始新的对话。"
        
        st.session_state.messages.append({"role": "assistant", "content": full_response})

if __name__ == "__main__":
    main()

运行说明

要运行这个程序，需要遵循以下步骤：

环境准备：

确保您已安装Python（推荐3.9或更高版本）。
建议使用虚拟环境来管理依赖。

安装依赖：在命令行中运行以下命令安装所需的库：
```
pip install streamlit google-generativeai python-dotenv Pillow
```
设置API密钥：

创建一个.env文件在项目根目录下。
在.env文件中添加您的Google API密钥：
```
GOOGLE_API_KEY=your_api_key_here
```

保存代码：将提供的代码保存为一个Python文件，例如app.py。
运行应用：在命令行中，导航到包含app.py的目录，然后运行：
```
streamlit run app.py
```
访问应用：Streamlit会在终端中提供一个本地URL（通常是http://localhost:8501）。在浏览器中打开这个URL来使用应用

代充值chatgpt plus

本文链接：https://google-gemini.cc/gemini_102.html

Gemni 谷歌 Gemini Pro Gemini pro Api 谷歌发布史上最强大模型gemini 谷歌母公司宣布削减gemini成本是多少谷歌gemini内测谷歌的gemini是什么谷歌ai人工智能gemini 谷歌称gemini开创原生多模态时代周鸿祎谈谷歌gemini

谷歌Gemini有哪些优势？深度解析Gemini 2.5 Pro的核心竞争力
谷歌Gemini 2.5 Pro作为多模态AI模型的升级版本，其核心竞争力体现在三方面：**超长上下文理解、多模态无缝协同及高效推理能力**。，1. **百万级token上下文窗口**支持复杂长文...
谷歌Gemini下载2025-06-041Gemini 2.5 Pro 核心竞争力谷歌Gemini有哪些优势
谷歌Gemini官网，探索AI未来的入口
谷歌Gemini官网是谷歌推出的下一代人工智能平台入口，致力于为用户提供前沿的AI技术与创新体验，该平台整合了多模态交互能力，支持文本、图像、代码等多种输入形式，旨在通过强大的生成式AI模型重塑人机协...
谷歌Gemini下载2025-06-036谷歌 Gemini AI未来谷歌gemini官网网址
OPPO携手谷歌Gemini模型，手机AI体验的下一站革命
OPPO与谷歌达成深度合作，将Gemini大模型能力引入手机端，标志着移动AI体验的全新升级，通过整合Gemini的文本、图像及多模态处理技术，OPPO手机将实现更精准的语义理解、跨语言实时翻译、智能...
谷歌Gemini下载2025-06-0215OPPO Gemini OPPO将引入谷歌Gemini模型
Gemini 2.5 Pro震撼发布，谷歌AI新标杆如何改写行业规则？
谷歌DeepMind近日发布Gemini 2.5 Pro多模态大模型，以128K上下文窗口和突破性"记忆检索"能力引发行业震动，新版本在视频、音频、代码等复杂任务中展现显著性能提升，尤其通过"专家混合...
谷歌Gemini下载2025-06-0215谷歌AI 5 Pro gemini谷歌最新消息
谷歌原生态Gemini手机，当AI灵魂注入硬件躯壳的未来革命
谷歌Gemini手机标志着AI与硬件深度融合的革命性突破，将人工智能的"灵魂"注入实体设备，重新定义了智能手机的交互范式，这款原生搭载Gemini大模型的产品，通过端侧AI实现毫秒级响应，使语音助手、...
谷歌Gemini下载2025-06-0113谷歌Gemini AI手机谷歌原生态gemini手机

Gemini API更新：PDF多模态理解能力 完整Streamlit应用代码分享

引言

完整代码

运行说明

相关文章

谷歌Gemini有哪些优势？深度解析Gemini 2.5 Pro的核心竞争力

谷歌Gemini官网，探索AI未来的入口

OPPO携手谷歌Gemini模型，手机AI体验的下一站革命

Gemini 2.5 Pro震撼发布，谷歌AI新标杆如何改写行业规则？

谷歌原生态Gemini手机，当AI灵魂注入硬件躯壳的未来革命

Gemini API更新：PDF多模态理解能力完整Streamlit应用代码分享